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江苏 传 智 播客 教育 科技 股份 有 限 公司 (简称 “ 传 智 播客 ”) 是 一 家 致力 于 培养 高 素质 软件 
开发 人 才 的 科技 公司 。“ 黑 马 程 序 员 ”是 传 智 播客 旗下 的 高 端 IT 教育 品牌 。 

“黑马 程序 员 ” 的 学 员 多 为 大 学 毕业 后 , 想 从 事 IT 行业 ,但 各 方面 条 件 还 不 成 熟 的 年 轻 
人 。“ 黑 马 程序 员 ” 的 学 员 筛 选 制度 非常 严格 ,包括 严格 的 技术 测试 .自学 能 力 测 试 , 还 包括 
性 格 测试 .压力 测试 .品德 测试 等 ,以 百 里 挑 一 的 残酷 筛选 制度 确保 学 员 质 量 , 降 低 企 业 的 用 
人 风险 。 

自 * 黑 马 程序 员 ?成立 以 来 ,教学 研发 团队 一 直 致 力 于 打造 精品 课程 资源 ,不 断 在 产 、 
学 、 研 三 个 层面 创新 自己 的 执教 理念 与 教学 方针 ,并 集中 * 黑 马 程序 员 ” 的 优势 力量 ,有 针 
对 性 地 出 版 了 计算 机 系列 教材 60 多 种 ,制作 教学 视频 数 十 套 ,发 表 各 类 技术 文章 数 
百 篇 。 

“黑马 程序 员 ” 不 仅 斥资 研发 IT 系列 教材 ,还 为 高 校 师 生 提 供 以 下 配套 学 习 资 源 与 
服务 。 


为 大 学 生 提 供 的 配套 服务 


1. 请 登录 在 线 平台 http://yx. boxuegu. com, 免 费 获 取 海量 学 习 资 源 , 还 有 专业 的 老 
师 在 线 为 您 答疑 解 惑 。 

2. 针对 高 校 学生 在 学 习 过 程 中 存在 的 压力 等 问题 ,我 们 还 面向 大 学 生 量 身 打 造 了 IT 
技术 女神 一 一 播 妞 ", 可 提供 教材 配套 源 代 码 和 习题 答案 以 及 更 多 IT 学 习 资 源 。 同 学 们 
可 以 添加 “ 播 妞 ” 微 信号 208695827 和 * 播 妞 "QQ 号 3231342131 ,获取 学 习 资 源 。 


为 教师 提供 的 配套 服务 
针对 高 校 教 学 “黑马 程序 员 "为 IT 系列 教材 精心 设计 了 “教案 十 授课 资源 十 考试 系 
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统 十 题库 十 教学 辅助 案例 ”的 系列 教学 资源 。 高 校 老师 请 登录 在 线 平台 http://yx. 
boxuegu. com 或 关注 码 大 牛 老师 微 信 /QQ2011168841, 获 取 配 套 资源 ,也 可 以 扫描 下 方 二 
维 码 , 加 入 专 为 IT 教师 打造 的 师资 服务 平台 一 一 “教学 好 助手 ”, 获 取 最 新 教师 教学 辅助 资 
源 的 相关 动态 。 
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我 们 生活 在 一 个 充满 “数据 ?的 时 代 , 刷 微 信 、 聊 QQ、 网 购 、 旅 游 . 看 病 等 一 系列 行为 无 
时 无 刻 不 在 产生 新 的 数据 ,日 积 月 累 形 成 巨大 的 数据 集 , 迎 来 了 大 数据 时 代 。 大 数据 时 代 的 
力量 ,正在 积极 地 影响 着 人 们 生活 的 方方面面 ,深刻 改变 着 人 类 的 思维 .生产 、 生 活 、 学 习 方 
式 , 深 刻 展示 了 世界 发 展 的 前 景 。 

大 数据 时 代 , 数 据 的 存储 与 挖掘 至 关 重要 。 企 业 在 追求 高 可 靠 性 ,高 扩展 性 及 高 容错 性 
的 大 数据 处 理 平台 的 同时 还 希望 能 够 降低 成 本 ,而 Hadoop 为 实现 这 些 需 求 提供 了 解决 方 
案 。 这 里 列举 3 条 使 用 Hadoop 作为 大 数据 业务 的 基础 原因 ,具体 如 下 。 

(1) Hadoop 底层 的 分 布 式 文件 系统 具有 高 拓展 性 ,通过 数据 元 余 保证 数据 不 丢失 和 提 
升 计算 效率 ,同时 可 以 存储 各 种 格式 的 数据 。 它 还 有 多 种 计算 框架 , 既 可 以 进行 离线 计算 也 
可 以 进行 在 线 实 时 计算 。 

(2) Hadoop 是 架构 在 廉价 的 硬件 服务 器 上 , 且 产 品 是 开源 的 , 供 开 发 者 免费 使 用 ,开发 
成 本 和 维护 成 本 都 降低 很 多 。 

(3) Hadoop 具有 成 熟 的 生态 圈 , 有 许多 辅助 系统 对 数据 进行 处 理 。 

本 书 作 为 大 数据 技术 Hadoop 的 人 门 教程 ,最 重要 又 最 难 的 一 件 事 情 就 是 将 一 些 复杂 、 
难以 理解 的 思想 和 问题 简单 化 ,让 初学 者 能 够 轻松 理解 并 快速 掌握 。 本 教材 对 每 个 知识 点 
都 进行 了 深入 分 析 , 并 针对 每 个 知识 点 精心 设计 了 相关 案例 ,然后 模拟 这 些 知识 点 在 实际 工 
作 中 的 运用 ,真正 做 到 了 知识 的 讲解 由 浅 入 深 、 由 易 到 难 。 

全 书 共 分 为 11 章 。 

第 1 章 主要 讲解 什么 是 大 数据 以 及 Hadoop 相关 概念 。 通 过 本 章 的 学 习 , 读 者 可 对 大 
数据 有 简单 的 认识 ,并 了 解 Hadoop 生态 圈 工 具 及 各 自 的 用 途 。 

第 2 章 主要 讲解 Hadoop 集群 的 构建 。 通 过 本 章 的 学 习 , 读 者 能 掌握 Linux 系统 网 络 
配置 .独立 搭建 Hadoop 开发 平台 ,以 及 简单 操作 Hadoop 系统 。 

第 3 章 主要 讲解 Hadoop 分 布 式 文件 系统 (HDFS)。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 
HDFS 的 架构 和 工作 原理 ,并 能 够 通过 Shell 接口 和 Java API 操作 HDFS。 

第 4 章 主 要 讲解 MapReduce 的 相关 知识 。 通 过 本 章 的 学 习 , 初 学 者 可 以 了 解 
MapReduce 计算 框架 的 思想 并 且 能 够 使 用 MapReduce 解决 实际 问题 。 

第 5 章 主要 讲解 Zookeeper 分 布 式 协调 服务 。 通 过 本 章 的 学 习 , 读 者 能 够 对 Zookeeper 
分 布 式 协 调 服务 有 基本 的 认识 ,掌握 Zookeeper 内 部 运行 原理 ,并 会 通过 Shell 和 Java API 
操作 Zookeeper。 

第 6 章 主要 讲解 Hadoop 2. 0 的 新 特性 ,包括 YARN 资源 管理 框架 和 HDFS 的 高 可 
用 。 其 中 ,YARN 作为 资源 管理 框架 ,读者 需要 明白 它 的 体系 结构 和 工作 流程 ;HDFS 的 高 
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可 用 性 能 够 解决 集群 的 单 点 故障 问题 ,读者 要 掌握 高 可 用 架构 的 部 署 方式 ,并 能 独立 参考 文 
档 搭建 高 可 用 的 Hadoop 集群 。 

第 7 章 主 要 讲解 Hive 的 相关 知识 。 读 者 需要 了 解 Hive 架构 ,数据 模型 .Hive 的 安装 
和 管理 以 及 Hive 的 数据 操作 。 这 里 建议 初学 者 在 学 习 Hive 时 多 动手 操作 Hive, 通 过 丰富 
的 案例 练习 ,掌握 Hive 的 使 用 。 

第 8 章 主要 讲解 Flume 日 志 采 集 系统 的 基本 知识 。 通 过 本 章 的 学 习 , 读 者 应 该 掌握 
Flume 的 基本 概念 .运行 机 制 并 且 能 够 掌握 Flume 的 安装 配置 和 基本 使 用 。 

第 9 章 主要 讲解 Azkaban 工作 流 管理 器 的 基本 知识 。 通 过 本 章 的 学 习 , 读 者 应 该 对 
Azkaban 有 一 定 的 了 解 ,掌握 Azkaban 的 部 署 和 使 用 ,并 能 够 使 用 Azkaban 进行 任务 调度 
管理 。 

第 10 章 主要 讲解 Sqoop 数据 迁移 工具 的 相关 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 
Sqoop 工作 原理 ,会 独立 搭建 Sqoop 工具 并 且 能 够 使 用 Sqoop 工具 完成 常用 的 数据 迁移 
操作 。 

第 11 章 主要 通过 开发 网 站 流量 日 志 分 析 系 统 来 讲解 利用 Hadoop 生态 体系 的 技术 解 
决 实际 问 题 。 通 过 本 章 的 学 习 , 读 者 可 以 了 解 大 数据 系统 的 架构 .数据 采集 数据 预 处 理 、 数 
据 仓 库 的 设计 ,数据 分 析 数据 导出 以 及 最 后 可 视 化 处 理 。 读 者 应 该 熟练 掌握 系统 架构 以 及 
业务 流程 ,熟练 使 用 Hadoop 生态 体系 相关 技术 。 
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初 识 Hadoop 


学 习 目 标 
。 了 解 大 数据 的 概念 及 其 特征 。 
。 熟悉 大 数据 的 典型 应 用 。 


。 了 解 Hadoop 的 发 展 历 史 及 其 版 本 。 
。 掌握 Hadoop 的 生态 体系 。 


随 着 近 几 年 计算 机 技术 和 互联 网 的 发 展 “ 大 数据 ”这 个 词 被 提 及 得 越 来 越 频繁 。 与 此 
同时 ,大 数据 的 快速 发 展 无 时 无 刻 不 在 影响 着 我 们 的 生活 ,例如 ,医疗 方面 ,大 数据 能 够 帮助 
医生 预测 疾病 ; 电 商 方面 ,大 数据 能 够 向 顾客 个 性 化 推荐 商品 ;交通 方面 ,大 数据 会 帮助 人 们 
选择 最 佳 出 行 方案 。 

Hadoop 作为 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,用 户 可 以 利用 Hadoop 
生态 体系 开发 和 处 理 海量 数据 。 由 于 Hadoop 可 靠 及 高 效 的 处 理性 能 ,使 得 它 逐 渐 成 为 分 
析 大 数据 的 领先 平台 。 接 下 来 ,将 深入 介绍 大 数据 以 及 Hadoop 的 相关 概念 ,为 后 面 知 识 的 
学 习 建 立 概念 体系 。 


1.1 大 数据 概述 


1.1.1 什么 是 大 数据 


高 速 发 展 的 信息 时 代 , 新 一 轮 科技 革命 和 变革 正在 加 速 推进 ,技术 创新 日 益 成 为 重 塑 经 
济 发 展 模式 和 促进 经 济 增长 的 重要 驱动 力量 .而 “大 数据 ”无 疑 是 核心 推动 力 。 

那么 ,什么 是 “大 数据 ? 呢 ? 如 果 从 字面 意思 来 看 ,大 数据 指 的 是 巨 量 数据 。 那 么 可 能 有 
人 会 问 ,多 大 量 级 的 数据 才 叫 大 数据 ?不同 的 机 构 或 学 者 有 不 同 的 理解 ,难以 有 一 个 非常 定 
量 的 定义 ,只 能 说 ,大 数据 的 计量 单位 已 经 越过 TB 级 别 发 展 到 PB、EB、ZB、YB 甚至 BB 
级 别 。 

最 早 提出 “大 数据 ?这 一 概念 的 是 全 球 知名 咨询 公司 麦肯锡 , 它 是 这 样 定 义 大 数据 的 : 
一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 析 方面 大 大 超出 了 传统 数据 库 软 件 工具 能 力 范 围 的 数 
据 集合 ,具有 海量 的 数据 规模 、 快 速 的 数据 流转 、 多 样 的 数据 类 型 以 及 价值 密度 低 四 大 特征 。 

研究 机 构 Gartner 是 这 样 定义 大 数据 的 :“ 大 数据 ?是 需要 新 处 理 模 式 才能 具有 更 强 的 
决策 力 ,洞察 发 现 力 和 流转 优化 能 力 来 适应 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 

若 从 技术 角度 来 看 ,大 数据 的 战略 意义 不 在 于 掌握 庞大 的 数据 ,而 在 于 对 这 些 含 有 意义 
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的 数据 进行 专业 化 处 理 , 换 言 之 ,如 果 把 大 数据 比 作 一 种 产业 ,那么 这 种 产业 到 利 的 关键 在 
于 提高 对 数据 的 “加 工 能 力 ”, 通 过 “加 工 ” 实 现 数据 的 “增值 ”。 


1.1.2 大 数据 的 特征 


一 般 认 为 ,大 数据 主要 具有 以 下 4 个 方面 的 典型 特征 , 即 大 量 (Volume)、 多 样 
(Variety) 、 高 速 (Velocity) 和 价值 (Value), 即 所 谓 的 “4V”, 接 下 来 ,通过 一 张 图 1-1 来 具体 
描述 。 


数据 量 的 存储 单 
位 从 过 去 的 GB 
到 TB， 甚 至 达到 
PB 、EB 


数据 类 型 复杂 多 
样 ， 包 括 结构 型 
数据 、 非 结构 型 
数据 、 源 数据 、 


高 束 
Velocity 
将 原始 数据 经 过 采 
集 、 清洗 、 深 度 挖 


掘 、 分 析 后 具 
有 较 高 的 商业 价值 


图 1-1 大 数据 4V 特征 
接 下 来 针对 图 1-1 中 的 4V 特征 进行 简要 介绍 ,具体 如 下 。 
1. Volume( 大 量 ) 


大 数据 的 特征 首先 就 是 数据 规模 大 。 随 着 互联 网 、 物 联网 ,移动 互联 技术 的 发 展 ,人 和 
事物 的 所 有 轨迹 都 可 以 被 记录 下 来 ,数据 呈现 出 爆发 性 增长 。 数 据 相关 计量 单位 的 换算 关 
系 如 表 1-1 所 示 。 


表 1-1 单位 换算 关系 


单 位 换算 公式 单 位 换算 公式 
Byte lByte= 8bit TB 1TB=1024GB 
KB 1KB 一 1024Byte PB 1PB 一 1024TB 
MB 1MB 一 1024KB EB 1EB 一 1024PB 
GB 1GB 一 1024MB ZB 1ZB 一 1024EB 


2. Variety( 多 样 ) 


数据 来 源 的 广泛 性 ,决定 了 数据 形式 的 多 样 性 。 大 数据 可 以 分 为 三 类 ,一 是 结构 化 数 
据 ,如 财务 系统 数据 \ 信 息 管理 系统 数据 、 医 疗 系统 数据 等 ,其 特点 是 数据 间 因 果 关 系 强 ;二 
是 非 结构 化 的 数据 ,如 视频 、 图 片 音 频 等 ,其 特点 是 数据 间 没 有 因果 关系 ;三 是 半 结 构 化 数 
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据 ,如 HTML 文档 、 邮 件 、 网 页 等 ,其 特点 是 数据 间 的 因果 关系 弱 。 有 统计 显示 ,目前 结构 
化 数据 占据 整个 互联 网 数据 量 的 75% 以 上 ,而 产生 价值 的 大 数据 ,往往 是 这 些 非 结构 化 
数据 。 


3. Velocity( 高 速 ) 


数据 的 增长 速度 和 处 理 速度 是 大 数据 高 速 性 的 重要 体现 。 与 以 往 的 报纸 .书信 等 传统 
数据 载体 生产 传播 方式 不 同 ,在 大 数据 时 代 , 大 数据 的 交换 和 传播 主要 是 通过 互联 网 和 云 计 
算 等 方式 实现 的 ,其 生产 和 传播 数据 的 速度 是 非常 迅速 的 。 另 外 ,大 数据 还 要 求 处 理 数 据 的 
响应 速度 要 快 ,例如 ,上 亿 条 数据 的 分 析 必 须 在 几 秒 内 完成 。 数 据 的 输入 、 处 理 与 丢弃 必须 
立刻 见效 ,几乎 无 延迟 。 


4. Value( 价 值 ) 


大 数据 的 核心 特征 是 价值 ,其 实 价 值 密度 的 高 低 和 数据 总 量 的 大 小 是 成 反比 的 , 即 数据 
价值 密度 越 高 数据 总 量 越 小 ,数据 价值 密度 越 低 数 据 总 量 越 大 。 任 何 有 价值 的 信息 的 提取 
依托 的 就 是 海量 的 基础 数据 。 当 然 目 前 大 数据 背景 下 有 个 未 解决 的 问题 ,如 何 通过 强大 的 
机 器 算法 更 迅速 地 在 海量 数据 中 完成 数据 的 价值 提纯 。 


1.1.3 研究 大 数据 的 意义 


现在 的 社会 是 一 个 高 速 发 展 的 社会 ,科技 发 达 , 信 息 流通 ,人 们 之 间 的 交流 也 越 来 越 密 
切 ,生活 也 越 来 越 便捷 ,大 数据 就 是 这 个 高 科技 时 代 的 产物 。 阿 里 巴巴 创办 人 马云 曾经 说 
过 ,未 来 的 时 代 将 不 是 IT 时 代 , 而 是 DT 的 时 代 ,DT 就 是 Data Technology ,数据 科 技 ,这 显 
示 出 大 数据 对 于 阿里 巴巴 集团 来 说 是 举足轻重 的 。 

有 人 把 数据 比喻 为 蕴藏 能 量 的 煤矿 。 煤 炭 按照 性 质 有 焦煤 、 无 烟煤 、 肥 煤 、 贫 煤 等 分 类 ， 
而 露天 煤矿 、 深 山 煤 矿 的 挖掘 成 本 又 不 一 样 。 与 此 类 似 ,大 数据 并 不 在 于 “大 ”, 而 在 于 “有 
用 ”。 数 据 的 价值 含量 .挖掘 成 本 比 数量 更 为 重要 。 对 于 很 多 行业 而 言 , 如 何 利用 这 些 大 规 
模 数 据 ,发 掘 其 潜在 价值 , 才 是 赢得 核心 竞争 力 的 关键 。 

研究 大 数据 ,最 重要 的 意义 是 预测 。 因 为 数据 从 根本 上 讲 , 是 对 过 去 和 现在 的 归纳 和 总 
结 , 其 本 身 不 具备 趋势 和 方向 性 的 特征 ,但 是 可 以 应 用 大 数据 去 了 解 事物 发 展 的 客观 规律 、 
了 解 人 类 行为 ,并 且 能 够 帮助 我 们 改变 过 去 的 思维 方式 ,建立 新 的 数据 思维 模型 ,从 而 对 未 
来 进行 预测 和 推测 。 比 如 ,商业 公司 对 消费 者 日 常 的 购买 行为 和 使 用 商品 习惯 进行 汇总 和 
分 析 , 了 解 到 消费 者 的 需求 .从 而 改进 已 有 商品 并 适时 推出 新 的 商品 ,消费 者 的 购买 欲 就 会 
提高 。 知 名 互联 网 公司 谷歌 对 其 用 户 每 天 频繁 搜索 的 词汇 进行 数据 挖掘 ,从 而 进行 相关 的 
广告 推广 和 商业 研究 。 

大 数据 的 处 理 技术 迫在眉睫 ,近年 来 各 国政 府 和 全 球 学 术 界 都 掀起 了 一 场 大 数据 技术 
的 革命 ,众人 纷纷 积极 研究 大 数据 的 相关 技术 。 很 多 国家 都 把 大 数据 技术 研究 上 升 到 了 国 
家 战略 高 度 ,提出 了 一 系列 的 大 数据 技术 研发 计划 ,从 而 推动 政府 机 构 .学 术 界 、 相 关 行 业 和 
各 类 企业 对 大 数据 技术 进行 探索 和 研究 。 

可 以 说 大 数据 是 一 种 宝贵 的 战略 资源 ,其 潜在 价值 和 增长 速度 正在 改变 着 人 类 的 工作 、 
生活 和 思维 方式 。 可 以 想象 ,在 未 来 .各 行 各 业 都 会 积极 拥抱 大 数据 ,积极 探索 数据 挖掘 和 
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分 析 的 新 技术 .新 方法 ,从 而 更 好 地 利用 大 数据 。 当 然 ,大 数据 并 不 能 主 衬 一切 。 大 数据 虽 
然 能 够 发 现 “是 什么 ”, 却 不 能 说 明 “ 为 什么 ”; 大 数据 提供 的 是 一 些 描 述 性 的 信息 ,而 创新 还 
是 需要 人 类 自己 来 实现 。 


1.2 大 数据 的 应 用 场景 


近年 来 ,大 数据 不 断 向 世界 的 各 行 各 业 渗 透 . 影 响 着 我 们 的 衣食 住 行 。 例 如 ,网 上 购物 
时 ,经 常会 发 现 电子 商务 门户 网 站 向 我 们 推荐 商品 ,往往 这 类 商品 都 是 我 们 最 近 需 要 的 。 这 
是 因为 用 户 上 网 行为 轨迹 的 相关 数据 都 会 被 搜集 记录 ,并 通过 大 数据 分 析 , 使 用 推荐 系统 将 
用 户 可 能 需要 的 物品 进行 推荐 ,从 而 达到 精准 营销 的 目的 。 下 面 简单 介绍 几 种 大 数据 的 应 
用 场景 。 


1.2.1 医疗 行业 的 应 用 


大 数据 让 就 医 、 看 病 更 简单 。 过 去 ,对 于 患者 的 治疗 方案 ,大 多 数 都 是 通过 医师 的 经 验 
来 进行 ,优秀 的 医师 固然 能 够 为 患者 提供 好 的 治疗 方案 ,但 由 于 医师 的 水 平 不 相同 ,所 以 很 
难保 证 患者 都 能 够 接受 最 佳 的 治疗 方案 。 而 随 着 大 数据 在 医疗 行业 的 深度 融合 ,大 数据 平 
台 积 累 了 海量 的 病例 ,病例 报告 治愈 方案 .药物 报告 等 信息 资源 ,所 有 常见 的 病例 ,既往 病 
例 等 都 记录 在 案 , 医 生 通 过 有 效 .连续 的 诊疗 记录 ,能 够 给 病人 优质 、 合 理 的 诊疗 方案 。 这 样 
不 仅 提 高 医生 的 看 病 效 率 , 而 且 能 够 降低 误诊 率 , 从 而 让 患者 在 最 短 的 时 间接 受 最 好 的 治 
疗 。 下 面 列举 大 数据 在 医疗 行业 的 应 用 ,具体 如 下 。 

(1) 优化 医疗 方案 ,提供 最 佳 治疗 方法 。 面 对 数目 及 种 类 众多 的 病菌 .病毒 ,以 及 肿瘤 
细胞 时 ,疾病 的 确诊 和 治疗 方案 的 确定 也 是 很 困难 的 。 借 助 于 大 数据 平台 ,可 以 搜集 不 同 病 
人 的 疾病 特征 、 病 例 和 治疗 方案 ,从 而 建立 医疗 行业 的 病人 分 类 数据 库 。 如 果 未 来 基因 技术 
发 展 成 熟 ,可 以 根据 病人 的 基因 序列 特点 进行 分 类 ,建立 医疗 行业 的 病人 分 类 数据 库 。 在 
医生 诊断 病人 时 可 以 参考 病人 的 疾病 特征 、 化 验 报告 和 检测 报告 ,参考 疾病 数据 库 来 快 
速 帮助 病人 确诊 ,明确 地 定位 疾病 。 在 制订 治疗 方案 时 ,医生 可 以 依据 病人 的 基因 特点 ， 
调 取 相似 基因 年龄 、 人 种 、 身 体 情况 相同 的 有 效 治疗 方案 ,制订 出 适合 病人 的 治疗 方案 ， 
帮助 更 多 人 及 时 进行 治疗 。 同 时 这 些 数 据 也 有 利于 医药 行业 研发 出 更 加 有 效 的 药物 和 
医疗 器 械 。 

(2) 有 效 预防 预测 疾病 。 解 决 患者 的 疾病 ,最 为 简单 的 方式 就 是 防 患 于 未 然 。 通 过 大 
数据 对 于 群众 的 人 体 数据 监控 ,将 各 自 的 健康 数据 ,生命 体征 指标 都 集合 在 数据 库 和 健康 档 
案 中 。 通 过 大 数据 分 析 应 用 ,推动 覆盖 全 生命 周期 的 预防 .治疗 ,康复 和 健康 管理 的 一 体 化 
健康 服务 ,这 是 未 来 健康 服务 管理 的 新 趋势 。 当 然 , 这 一 点 不 仅 需 要 医疗 机 构 加 快 大 数据 的 
建设 ,还 需要 群众 定期 去 做 检查 ,及 时 更 新 数据 ,以 便 通 过 大 数据 来 预防 和 预测 疾病 的 发 生 ， 
做 到 早 治疗 \ 早 康复 。 当 然 , 随 着 大 数据 的 不 断 发 展 ,以 及 在 各 个 领域 的 应 用 ,一 些 大 规模 的 
流感 也 能 够 通过 大 数据 实现 预测 。 


1.2.2 金融 行业 的 应 用 
随 着 大 数据 技术 的 应 用 , 越 来 越 多 的 金融 企业 也 开始 投身 到 大 数据 应 用 实践 中 。 麦 肯 
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锡 的 一 份 研究 显示 ,金融 业 在 大 数据 价值 潜力 指数 中 排名 第 一 。 下 面 列举 若干 大 数据 在 金 
融 行业 的 典型 应 用 ,具体 如 下 。 

(1) 精准 营销 。 银 行 在 互联 网 的 冲击 下 ,迫切 需要 掌握 更 多 用 户 信 息 , 继 而 构建 用 户 
360 "立体 画像 , 即 可 对 细 分 的 客户 进行 精准 营销 实时 营销 等 个 性 化 智慧 营销 。 

(2) 风险 管控 。 应 用 大 数据 平台 ,可 以 统一 管理 金融 企业 内 部 多 源 异 构 数 据 和 外 部 
征 信 数据 ,更 好 地 完善 风 控 体 系 。 内 部 可 保证 数据 的 完整 性 与 安全 性 ,外 部 可 控制 用 户 
风险 。 

(3) 决策 支持 。 通 过 大 数据 分 析 方 法 改善 经 营 决策 ,为 管理 层 提供 可 靠 的 数据 支撑 ,从 
而 使 经 营 决策 更 高 效 、 敏 捷 、 精 准 。 

(4) 服务 创新 。 通 过 对 大 数据 的 应 用 ,改善 与 客户 之 间 的 交互 .增加 用 户 黏 性 ,为 个 人 
与 政府 提供 增值 服务 ,不 断 增强 金融 企业 业务 核心 竞争 力 。 

(5) 产品 创新 。 通 过 高 端 数据 分 析 和 综合 化 数据 分 享 ,有 效 对 接 银行 .保险 .信托 、 基 金 
等 各 类 金融 产品 ,使 金融 企业 能 够 从 其 他 领域 借鉴 并 创造 出 新 的 金融 产品 。 


1.2.3 零售 行业 的 应 用 


美国 零售 业 曾 经 有 这 样 一 个 传奇 故事 , 某 家 商店 将 纸尿裤 和 啤酒 并 排放 在 一 起 销售 , 结 
果 纸 尿 裤 和 啤酒 的 销量 双双 增长 ! 为 什么 看 起 来 风 马 牛 不 相 及 的 两 种 商品 搭配 在 一 起 ,能 
取 到 如 此 惊人 的 效果 呢 ? 后 来 经 过 分 析 发 现 ,这 些 购 买 者 多 数 是 已 婚 男士 ,这些 男士 在 为 小 
孩 购买 尿 不 湿 的 同时 ,会 同时 为 自己 购买 一 些 啤酒 。 发 现 这 个 秘密 后 ,沃尔玛 超市 就 大 胆 地 
将 啤酒 摆 放 在 尿 不 湿 劳 边 ,这 样 顾客 购买 的 时 候 更 方便 ,销量 自然 也 会 大 幅 上 升 。 之 所 以 讲 
“啤酒 -尿布 "这 个 例子 ,其 实 是 想 告诉 大 家 ,挖掘 大 数据 潜在 的 价值 ,是 零售 业 竞争 的 核心 竞 
争 力 , 下 面 列举 若干 大 数据 在 零售 业 的 创新 应 用 ,具体 如 下 。 

(1) 精准 定位 零售 行业 市 场 。 企 业 想 进入 或 开拓 某 一 区 域 零 售 行业 市 场 ,首先 要 进行 
项 目 评估 和 可 行 性 分 析 , 只 有 通过 项 目 评估 和 可 行 性 分 析 才 能 最 终 决定 是 否 适合 进入 或 者 
开拓 这 块 市 场 。 通 常 需要 分 析 这 个 区 域 流动 人 口 是 多 少 ? 消费 水 平 怎么 样 ? 客户 的 消费 习 
惯 是 什么 ? 市 场 对 产品 的 认 知 度 怎么 样 ? 当前 的 市 场 供需 情况 怎么 样 等 等 ,这 些 问 题 背 后 
包含 的 海量 信息 构成 了 零售 行业 市 场 调研 的 大 数据 ,对 这 些 大 数据 的 分 析 就 是 市 场 定 位 
过 程 。 

(2) 支撑 行业 收益 管理 。 大 数据 时 代 的 来 临 ,为 企业 收益 管理 工作 的 开展 提供 了 更 加 
广阔 的 空间 。 需 求 预 测 、 细 分 市 场 和 敏感 度 分 析 对 数据 需求 量 很 大 ,而 传统 的 数据 分 析 大 多 
采集 的 是 企业 自身 的 历史 数据 来 进行 预测 和 分 析 ,容易 忽视 整个 零售 行业 信息 数据 ,因此 难 
免 使 预测 结果 存在 偏差 。 企 业 在 实施 收益 管理 过 程 中 如 果 能 在 自 有 数据 的 基础 上 ,依靠 一 
些 自动 化 信息 采集 软件 来 收集 更 多 的 零售 行业 数据 ,了 解 更 多 的 零售 行业 市 场 信息 ,这 将 会 
对 制订 准确 的 收益 策略 ,赢得 更 高 的 收益 起 到 推进 作用 。 

(3) 挖掘 零售 行业 新 需求 。 作 为 零售 行业 企业 ,如 果 能 对 网 上 零售 行业 的 评论 数据 进 
行 收集 ,建立 网 评 大 数据 库 , 然 后 再 利用 分 词 . 聚 类 、 情 感 分 析 了 解 消费 者 的 消费 行为 、 价 值 
取向 ,评论 中 体现 的 新 消费 需求 和 企业 产品 质量 问题 ,以 此 来 改进 和 创新 产品 ,量化 产品 价 
值 ,制定 合理 的 价格 及 提高 服务 质量 ,从 中 获取 更 大 的 收益 。 
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1.3 Hadoop 概述 


1.3.1 Hadoop 的 前 世 今 生 


随 着 数据 的 快速 增长 ,数据 的 存储 和 分 析 都 变 得 越 来 越 困 难 。 例 如 存储 容量 、 读 写 速 
度 、 计 算 效 率 等 都 无 法 满足 用 户 的 需求 。 为 了 解决 这 些 问题 ,Google 提出 了 如 下 3 种 处 理 
大 数据 的 技术 手段 。 

。 MapReduce: Google 的 MapReduce 开源 分 布 式 并 行 计 算 框 架 ; 

。 BigTable: 一 个 大 型 的 分 布 式 数据 库 ; 

。 GFS: Google 的 分 布 式 文件 系统 。 

上 述 三 大 技术 可 以 说 是 革命 性 的 技术 ,具体 表现 在 : 

(1) 成 本 降低 ,能 用 PC 机 ,就 不 用 大 型 机 和 高 端 存储 。 

(2) 软件 容错 硬件 故障 视 为 常态 ,通过 软件 保证 可 靠 性 。 

(3) 简化 并 行 分 布 式 计 算 ,无 须 控制 节点 同步 和 数据 交换 。 

在 2003 一 2004 年 .Google 陆续 公布 了 部 分 GFS 和 MapReduce 思想 的 细节 ,Nutch 的 
创始 人 Doug Cutting 受到 启发 ,用 了 若干 年 时 间 实 现 了 DFS 和 MapReduce 机 制 ,使 Nutch 
性 能 飙升 。 

2005 年 ,Hadoop 作为 Lucene 子 项 目 Nutch 的 一 部 分 正式 被 引入 Apache 基金 会 ， 
后 又 从 Nutch 中 和 剥离 ,成 为 一 套 完 整 独立 的 


软件 ,起 名 为 Hadoop。 据 说 ,Hadoop 这 个 名 (0 

字 来 源 于 创始 人 Doug Cutting 儿子 的 毛 绒 玩 由 | LU) 
具 大 象 ,因此 ,Hadoop 的 Logo 形象 如 图 1-2 

所 示 。 图 1-2 Hadoop Logo 


目前 , Hadoop 已 经 正式 成 为 Apache 顶 
级 开源 项 目 , 癸 然 已 经 处 于 大 数据 处 理 技术 的 核心 地 位 。 下 面 回 顾 一 下 近 10 年 来 Hadoop 
的 主要 发 展 历程 。 
。 2008 年 1 月 ,Hadoop 成 为 Apache 顶级 项 目 。 
2008 年 6 月 ,Hadoop 的 第 一 个 SQL 框架 一 一 Hive 成 为 Hadoop 的 子 项 目 。 
2009 年 7 月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成 为 Hadoop 
项 目的 独立 子 项 目 。 
2009 年 7 月 ,Avro 和 Chukwa 成 为 Hadoop 新 的 子 项 目 。 
2010 年 5 月 ,Avro 脱离 Hadoop 项 目 , 成 为 Apache 顶级 项 目 。 
2010 年 5 月 ,HBase 脱离 Hadoop 项 目 , 成 为 Apache 顶级 项 目 。 
2010 年 9 月 ,Hive 脱离 Hadoop ,成 为 Apache 顶级 项 目 。 
2010 年 9 月 ,Pig 脱离 Hadoop ,成 为 Apache 顶级 项 目 。 
2010 一 2011 年 ,扩大 的 Hadoop 社区 忙于 建立 大 量 的 新 组 件 (Crunch, Sqoop， 
Flume.Oozie 等 ) 来 扩展 Hadoop 的 使 用 场景 和 可 用 性 。 
2011 年 1 月 ,ZooKeeper 脱离 Hadoop ,成 为 Apache 顶级 项 目 。 
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2011 年 12 月 ,Hadoop 1. 0.0 版 本 发 布 .标志 着 Hadoop 已 经 初 具 生产 规模 。 

2012 年 5 月 , Hadoop 2.0.0-alpha 版 本 发 布 ,这 是 Hadoop-2. x 系列 中 第 一 个 
(Calpha) 版 本 。 与 之 前 的 Hadoop-1. x 系列 相 比 ,Hadoop-2. x 版 本 中 加 入 了 YARN， 
YARN 成 为 了 Hadoop 的 子 项 目 。 

2012 年 10 月 ,Impala 加 入 Hadoop 生态 圈 。 

2013 年 10 月 ,Hadoop 2. 0.0 版 本 发 布 .标志 着 Hadoop 正式 进入 MapReduce v2.0 
时 代 。 

2014 年 2 月 ,Spark 开始 代 蔡 MapReduce 成 为 Hadoop 的 默认 执行 引擎 ,并 成 为 
Apache 顶级 项 目 。 

2017 年 12 月 , 继 Hadoop 3.0.0 的 4 个 Alpha 版 本 和 1 个 Beta 版 本 后 ,第 一 个 可 用 
的 Hadoop 3. 0.0 版 本 发 布 。 


1.3.2 Hadoop 的 优势 


Hadoop 作为 分 布 式 计算 平台 ,能 够 处 理 海 量 数据 ,并 对 数据 进行 分 析 。 经 过 近 10 年 
的 发 展 ,Hadoop 已 经 形成 了 以 下 几 点 优势 。 


扩容 能 力 强 。Hadoop 是 一 个 高 度 可 扩展 的 存储 平台 , 它 可 以 存储 和 分 发 跨越 数 百 
个 并 行 操作 的 廉价 的 服务 器 数据 集群 。 不 同 于 传统 的 关系 数据 库 不 能 扩展 到 处 理 
大 量 的 数据 ,Hadoop 是 能 给 企业 提供 涉及 成 百 上 千 TB 的 数据 节点 上 运行 的 应 用 
程序 。 

成 本 低 。Hadoop 为 企业 用 户 提 供 了 极 具 缩减 成 本 的 存储 解决 方案 。 通 过 普通 廉价 
的 机 器 组 成 服务 器 集群 来 分 发 处 理 数据 ,成 本 比较 低 ,普通 用 户 也 很 容易 在 自己 的 
PC 机 上 搭建 Hadoop 运行 环境 。 

高 效率 。Hadoop 能 够 并 发 处 理 数据 ,并 且 能 够 在 节点 之 间 动 态 地 移动 数据 ,并 保证 
各 个 节点 的 动态 平衡 ,因此 处 理 数据 的 速度 是 非常 快 的 。 

可 靠 性 。Hadoop 自动 维护 多 份 数据 副本 ,假设 计算 任务 失败 , Hadoop 能 够 针对 失 
败 的 节点 重新 分 布 处 理 。 

高 容错 性 。Hadoop 的 一 个 关键 优势 就 是 容错 能 力 强 , 当 数据 被 发 送 到 一 个 单独 的 
节点 ,该 数据 也 被 复制 到 集群 的 其 他 节点 上 ,这 意味 着 故障 发 生 时 ,存在 另 一 个 副本 
可 供 使 用 。 


1.3.3 ”Hadoop 的 生态 体系 


随 着 Hadoop 的 不 断 发 展 ,Hadoop 生态 体系 越 来 越 完善 , 现 如 今 已 经 发 展 成 一 个 庞大 
的 生态 体系 ,如 图 1-3 所 示 。 

从 图 1-3 中 可 以 看 出 ,Hadoop 生态 体系 包含 了 很 多 子 系 统 ,下 面 介绍 一 些 常 见 的 子 系 
统 ,具体 如 下 。 


i 


分 布 式 存储 系统 (HDFS) 


HDFS 是 Hadoop 分 布 式 文件 系统 的 简称 , 它 是 Hadoop 生态 系统 中 的 核心 项 目 之 一 ， 
是 分 布 式 计算 中 数据 存储 管理 基础 。HDFS 具有 高 容错 性 的 数据 备份 机 制 , 它 能 检测 和 应 
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图 1-3 ”Hadoop 生态 图 


对 硬件 故障 ,并 在 低 成 本 的 通用 硬件 上 运行 。 另 外 , HDFS 具备 流 式 的 数据 访问 特点 ,提供 
高 吞吐 量 应 用 程序 数据 访问 功能 ,适合 带 有 大 型 数据 集 的 应 用 程序 。 


2. MapReduce 分 布 式 计算 框架 


MapReduce 是 一 种 计算 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 。“Map” 对 数 
据 集 上 的 独立 元 素 进 行 指定 的 操作 ,生成 键 值 对 形式 中 间 结 果 ;“Reduce” 则 对 中 间 结 果 中 
相同 “ 键 " 的 所 有 “ 值 ”进行 规约 ,以 得 到 最 终结 果 。MapReduce 这 种 “分 而 治之 ”的 思想 , 极 
大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 下 ,将 自己 的 程序 运行 在 分 布 式 系统 上 。 


3. YARN 资源 管理 平台 


YARN(Yet Another Resource Negotiator) 是 Hadoop 2.0 中 的 资源 管理 器 , 它 可 为 上 
层 应 用 提供 统一 的 资源 管理 和 调度 , 它 的 引入 为 集群 在 利用 率 、 资 源 统一 管理 和 数据 共享 等 
方面 带 来 了 巨大 好 处 。 


4. Sqoop 数据 迁移 工具 


Sqoop 是 一 款 开 源 的 数据 导入 导出 工具 ,主要 用 于 在 Hadoop 与 传统 的 数据 库 间 进 行 
数据 的 转换 , 它 可 以 将 一 个 关系 数据 库 ( 例 如 , MySQL、 Oracle 等 ) 中 的 数据 导入 到 
Hadoop 的 HDFS 中 .也 可 以 将 HDFS 的 数据 导出 到 关系 数据 库 中 .使 数据 迁移 变 得 非常 
方便 。 


5. Mahout 数据 挖掘 算法 库 


Mahout 是 Apache 旗下 的 一 个 开源 项 目 . 它 提供 了 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算 
法 的 实现 , 旨 在 帮助 开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahout 包含 许多 实现 ， 
包括 聚 类 、 分 类 、 推 荐 过 滤 ,频繁 子 项 挖掘 。 此 外 ,通过 使 用 Apache Hadoop 库 , Mahout 可 
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以 有 效 地 扩展 到 云 中 。 
6. HBase 分 布 式 数据 库 


HBase 是 Google Bigtable 克隆 版 , 它 是 一 个 针对 结构 化 数据 的 可 伸缩 、 高 可 靠 、 高 性 
能 ,分布 式 和 面向 列 的 动态 模式 数据 库 。 和 传统 关系 数据 库 不 同 , HBase 采用 了 BigTable 
的 数据 模型 : 增强 的 稀疏 排序 映射 表 (Key/Value) ,其 中 , 键 由 行 关键 字 、 列 关键 字 和 时 间 截 
构成 。HBase 提供 了 对 大 规模 数据 的 随机 、 实 时 读 写 访问 ,同时 , HBase 中 保存 的 数据 可 以 
使 用 MapReduce 来 处 理 , 它 将 数据 存储 和 并 行 计 算 完 美 地 结合 在 一 起 。 


7. Zookeeper 分 布 式 协调 服务 


Zookeeper 是 一 个 分 布 式 的 ,开放 源码 的 分 布 式 应 用 程序 协调 服务 ,是 Google 的 
Chubby 一 个 开源 的 实现 ,是 Hadoop 和 HBase 的 重要 组 件 。 它 是 一 个 为 分 布 式 应 用 提供 
一 致 性 服务 的 软件 ,提供 的 功能 包括 配置 维护 ,域名 服务 、 分 布 式 同步 .组 服务 等 用 于 构建 分 
布 式 应 用 ,减少 分 布 式 应 用 程序 所 承担 的 协调 任务 。 


8. Hive 基于 Hadoop 的 数据 仓库 


Hive 是 基于 Hadoop 的 一 个 分 布 式 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 一 
张 数据 库 表 , 将 SQL 语句 转换 为 MapReduce 任务 进行 运行 。 其 优点 是 操作 简单 ,降低 学 习 
成 本 ,可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ,不 必 开 发 专门 的 MapReduce 
应 用 ,十 分 适合 数据 仓库 的 统计 分 析 。 


9. Flume 日 志 收 集 工具 


Flume 是 Cloudera 提供 的 一 个 高 可 用 的 ,高 可 靠 的 ,分 布 式 的 海量 日 志 采 集 、 聚 合 和 传 
输 的 系统 ,Flume 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ;同时 ,Flume 提供 
对 数据 进行 简单 处 理 , 并 写 到 各 种 数据 接受 方 ( 可 定制 ) 的 能 力 。 


1.3.4 Hadoop 的 版 本 


Hadoop 发 行 版 本 分 为 开源 社区 版 和 商业 版 ,社区 版 是 指 由 Apache 软件 基金 会 维护 的 
版 本 ,是 官方 维护 的 版 本 体系 。 商 业 版 Hadoop 是 指 由 第 三 方 商 业 公 司 在 社区 版 Hadoop 
基础 上 进行 了 一 些 修 改 、 整 合 以 及 各 个 服务 组 件 兼容 性 测试 而 发 行 的 版 本 ,比较 著名 的 有 
Cloudera 公司 的 CDH 版 本 。 

为 了 方便 学 习 , 本 书 采用 开源 社区 版 ,而 Hadoop 自 诞生 以 来 ,主要 分 为 Hadoop 1、 
Hadoop 2 和 Hadoop 3 三 个 系列 的 多 个 版 本 。 由 于 目前 市 场 上 最 主流 的 是 Hadoop-2. x 版 
本 ,因此 ,本 书 只 针对 Hadoop-2. x 版 本 进行 相关 介绍 。 

Hadoop-2. x 版 本 指 的 是 第 2 代 Hadoop, 它 是 从 Hadoop-1. x 发展 而 来 的 ,并 且 相 对 于 
Hadoop-1. x 来 说 ,有 很 多 改进 。 下 面 从 Hadoop-1. x 到 Hadoop-2. x 发 展 的 角度 ,对 两 版 本 
进行 讲解 ,如 图 1-4 所 示 。 

通过 图 1-4 可 以 看 出 ,Hadoop 1. 0 内 核 主要 由 分 布 式 存储 系统 CHDFS) 和 分 布 式 计算 
框架 MapReduce 两 个 系统 组 成 ,而 Hadoop-2. x 版 本 主要 新 增 了 资源 管理 框架 YARN 以 
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HADOOP 1.0 HADOOP 2.0 


MapReduce Others 
(data processingl (data processing) 


MapReduce 
i YARN 
& data processing) (duster resource management) 


图 1-4 Hadoop 版 本 内 核 演变 


及 其 他 工作 机 制 的 改变 。 
在 Hadoop-1. x 版 本 中 ,HDFS 与 MapReduce 结构 如 图 1-5 和 图 1-6 所 示 。 


号 园 - 一 口 轩 


NameNode Secondary NameNode 


| J 


DataNode DataNode DataNode DataNode 
图 1-5 HDFS 组 成 结构 


从 图 1-5 可 以 看 出 , HDFS 由 一 个 
NameNode 和 多 个 DateNode 组 成 , 其 中 ， 
DataNode 负责 存储 数据 ,但 是 数据 具体 存储 


JobTracker 


到 哪个 DataNode (节点 ), 则 是 由 NameNode [TaskTracker TREE 


TaskTracker 


决定 的 。 
从 图 1-6 可 以 看 出 MapReduce 由 一 个 


JobTracker 和 多 个 TaskTracker 组 成 ,其 中 ,MapReduce 的 主 节点 JobTracker 只 有 一 个 ， 
从 节点 TaskTracker 有 很 多 个 ,JobTracker 与 TaskTracker 在 MapReduce 中 的 角色 就 像 是 
计算 任务 分 
Hadoop-1. x 


项 目 经 理 与 开发 人 员 的 关系 ,而 JobTracker 负责 接收 用 户 提交 的 计算 任务 ,将 
配给 TaskTracker 执行 .跟踪 ,JobTracker 同时 监控 TaskTracker 的 任务 执行 
然 ,TaskTracker 只 负责 执行 JobTracker 分 配 的 计算 任务 , 正 是 由 于 这 种 机 制 ， 
架构 中 的 HDFS 和 MapReduce 存在 以 下 缺陷 : 

(1) HDFS 中 的 NameNode .SecondaryNode 单 点 故障 ,风险 比较 大 。 其 次 


有 的 DataNode。 


图 1-6 MapReduce 组 成 结构 


,NameNode 
内 存 受 限 不 好 扩展 ,因为 Hadoop-1. x 版 本 中 的 HDFS 只 有 一 个 NameNode, 并 且 要 管理 所 
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(2) MapReduce 中 的 JobTracker 职责 过 多 ,访问 压力 太 大 ,会 影响 系统 稳定 。 除 此 之 
外 ,MapReduce 难以 支持 除 自身 以 外 的 框架 ,扩展 性 较 低 。 

Hadoop-2. x 版 本 为 克服 Hadoop-1. x 中 的 不 足 , 对 其 架构 进行 了 以 下 改进 : 

(1) Hadoop-2. x 可 以 同时 启动 多 个 NameNode, 其 中 一 个 处 于 工作 (Active) 状 态 , 另 一 
个 处 于 随时 待命 (Standby) 状 态 ,这 种 机 制 被 称 为 Hadoop HA(Hadoop 高 可 用 )。 当 一 个 
NameNode 所 在 的 服务 器 宕 机 时 ,可 以 在 数据 不 丢失 的 情况 下 ,自动 切换 到 另 一 个 
NameNode 持续 提供 服务 。 

(2) Hadoop-2.x 将 JobTracker 中 的 资源 管理 和 作业 控制 分 开 , 分 别 由 
ResourceManager( 负 责 所 有 应 用 程序 的 资源 分 配 ) 和 ApplicationMaster( 负 责 管理 一 个 应 
用 程序 ) 实 现 , 即 引入 了 资源 管理 框架 YARN, 它 是 一 个 通用 的 资源 管理 框架 ,可 以 为 各 类 
应 用 程序 进行 资源 管理 和 调度 ,不 仅 限于 MapReduce 一 种 框架 ,也 可 以 为 其 他 框架 使 用 ,如 
Tez、Spark、Storm, 这 种 设计 不 仅 能 够 增强 不 同 计算 模型 和 各 种 应 用 之 间 的 交互 ,使 集群 资 
源 得 到 高 效 利 用 ,而 且 能 更 好 地 与 企业 中 已 经 存在 的 计算 结构 集成 在 一 起 。 

(3) Hadoop-2. x 中 的 MapReduce 是 运行 在 YARN 上 的 离线 处 理 框架 , 它 的 运行 环境 
不 再 由 JobTracker 和 TaskTracker 等 服务 组 成 ,而 是 变 成 通用 资源 管理 YARN 和 作业 控 
制 进程 ApplicationMaster, 从 而 使 MapReduce 在 速度 上 和 可 用 性 上 都 有 很 大 的 提高 。 

关于 Hadoop-2.0 的 HDFS、MapReduce 以 及 YARN 的 具体 介绍 ,将 在 后 续 章节 详细 
讲解 ,这 里 大 家 有 个 印象 即 可 。 


1.4 本 章 小 结 


本 章 主要 讲解 什么 是 大 数据 以 及 Hadoop 相关 概念 。 首 先 介绍 了 大 数据 的 4V 特征 
(规模 性 、 多 样 性 ,高速 性 、 价 值 性 ) ,以 及 研究 大 数据 的 意义 。 接 着 ,介绍 了 大 数据 在 医疗 、 金 
融 .零售 行业 的 应 用 场景 ,利用 大 数据 技术 可 以 帮助 企业 达到 业绩 的 提升 。 最 后 ,通过 
Hadoop 概述 介绍 了 Hadoop 的 来 源 以 及 发 展 历程 ,介绍 了 Hadoop 生态 圈 各 个 系统 的 主要 
功能 ,最 后 通过 对 Hadoop 版 本 的 简要 概括 ,说 明 本 教材 选用 Hadoop 2.0 的 原因 。 


1.5 课 后 习题 


一 、 填空 题 

1. 大 数据 的 4V 特征 包含 和 

2. Hadoop 三 大 组 件 包 含 、 和 5 

3. Hadoop 2. x 版 本 中 的 HDFS 是 由 、 和 组 成 。 
4. Hadoop 发 行 版 本 分 为 和 

5. 目前 Apache Hadoop 发 布 的 版 本 主要 有 四 和 本 
二 、 判 断 题 


1. Cloudera CDH 是 需要 付费 使 用 的 。 ( ) 


| 
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2. JobTracker 是 HDFS 的 重要 角色 。 

3. 在 Hadoop 集群 中 ,NameNode 负责 管理 所 有 DataNode。 

4. 在 Hadoop 1. x 版 本 中 ,MapReduce 程序 是 运行 在 YARN 集群 之 上 。 
5 


.Hadoop 是 用 Java 语言 开发 的 。 
三 、 选择 题 
1. 下 列 选项 中 ,哪个 程序 负责 HDFS 数据 存储 ?( ) 

A. NameNode B. DataNode 

C. Secondary NameNode D. ResourceManager 
2. 下 列 选项 中 , 哪 项 通常 是 集群 的 最 主要 的 性 能 瓶颈 ? ( ) 

A. CPU B. 网 络 C. 磁盘 D. 内 存 
3. 下 面 哪 项 是 Hadoop 的 作者 ? 〈 ) 

A. Martin Fowler B. Doug cutting 

C. Mark Elliot Zuckerberg D. Kent Beck 
、 简 答题 


1. 简 述 大 数据 研究 的 意义 。 
2. 简 述 Hadoop 的 发 行 版 本 。 
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第 2 章 
搭建 Hadoop 集 群 


学 习 目 标 

。 了 解 虚 拟 机 的 安装 和 克隆 。 

。 熟悉 Linux 系统 的 网 络 配置 和 SSH 配置 。 
。 掌握 Hadoop 集群 的 搭建 和 配置 。 

。 掌握 Hadoop 集群 测试 。 

。 熟悉 Hadoop 集群 初 体验 的 操作 。 


“ 磨 刀 不 误 砍 柴 工 ”, 要 想 深入 学 习 和 掌握 Hadoop 的 相关 应 用 ,首先 必须 得 学 会 搭建 一 
个 属于 自己 的 Hadoop 集群 。 本 章 将 带领 大 家 从 零 开 始 搭 建 一 个 简单 的 Hadoop 集群 ,并 
体验 Hadoop 集群 的 简单 使 用 。 


2.1 安装 准备 


Hadoop 是 一 个 用 于 处 理 大 数据 的 分 布 式 集群 架构 ,支持 在 GNU/Linux 系统 以 及 
Windows 系统 上 进行 安装 使 用 。 在 实际 开发 中 .由 于 Linux 系统 的 便捷 性 和 稳定 性 ,更 多 
的 Hadoop 集群 是 在 Linux 系统 上 运行 的 ,因此 本 教材 也 针对 Linux 系统 上 Hadoop 集群 
的 构建 和 使 用 进行 讲解 。 


2.1.1 虚拟 机 安装 


Hadoop 集群 的 搭建 涉及 多 人 台 机 器 ,而 在 日 常 学 习 和 个 人 开发 测试 过 程 中 ,这 显然 是 不 
可 行 的 ,为 此 ,可 以 使 用 虚拟 机 软件 (如 VMware Workstation) 在 同一 台电 脑 上 构建 多 个 
Linux 虚拟 机 环境 ,从 而 进行 Hadoop 集群 的 学 习 和 个 人 测试 。 

接 下 来 ,就 分 步骤 演示 如 何 使 用 VMware Workstation 虚拟 软件 工具 进行 Linux 系统 
虚拟 机 的 安装 配置 。 


1. 创建 虚拟 机 


(1) 根据 说 明 下 载 并 安装 好 VMware Workstation 虚拟 软件 工具 (此 次 演示 的 是 
VMware Workstation12 版 本 使 用 ,该 工具 下 载 安装 非常 简单 ,具体 可 以 查阅 相关 资料 ) , 安 
装 成 功 后 打开 VMware Workstation 工具 .效果 如 图 2-1 所 示 。 

(2) 在 图 2-1 中 , 单 击 “ 创 建新 的 虚拟 机 ”选项 进入 新 建 虚拟 机 向 导 , 根 据 安装 向 导 可 以 
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图 2-1 Vmware Workstation 界面 


使 用 默认 安装 方式 连续 单 击 “ 下 一 步 ” 按 钮 。 当 进入 到 “选择 客户 机 操作 系统 ”界面 时 ,选择 
此 次 要 安装 的 客户 机 操作 系统 为 Linux, 以 及 版 本 为 CentOS 64 位 ,如 图 2-2 所 示 。 


选择 客户 机 操作 系统 
此 虚拟 机 中 将 安装 哪 种 操作 系统 ? 


图 2-2 操作 系统 选择 


(3) 在 图 2-2 中 选择 好 客户 机 操作 系统 后 , 单 击 “ 下 一 步 " 按 钮 ,进入 到 “命名 虚拟 机 ” 界 
面 , 自 定义 配置 虚拟 机 名 称 ( 示 例 中 定义 了 虚拟 机 名 称 为 Hadoop01) 和 安装 位 置 , 如 
图 2-3 所 示 。 


第 2 章 搭建 Hadoop 集群 


isa 
[es 到 | 
命名 虚拟 机 
您 希望 该 虚 拭 机 使 用 什么 名 称 ? 
nV): 
Hadoop01 
位 置 (D): 
D:\tcast-Hadoop\Hadoop01 浏览 (R)… 
在 编辑 "> 首选 项 "中 可 更 改 默 认 位 置 。 


< 上 = 步 @)] (F—(W)> ] 人 


图 2-3 虚拟 机 命名 


(4) 在 图 2-3 中 完成 虚拟 机 命名 后 , 单 击 * 下 一 步 " 按 钮 ,进入 到 “处 理 器 配置 "界面 , 根 
据 个 人 PC 端的 硬件 质量 和 使 用 需求 , 自 定义 设置 “处 理 器 数量 ”和 * 每 个 处 理 器 的 核心 数 
量 ”, 如 图 2-4 所 示 。 


图 2-4 处 理 器 配置 


(5) 在 图 2-4 中 完成 处 理 器 配置 后 , 单 击 “ 下 一 步 ?按钮 ,进入 到 * 此 虚拟 机 的 内 存 ” 设 置 
界面 ,同样 根据 个 人 PC 端的 物理 内 存 进行 合理 分 配 , 这 里 搭建 的 Hadoop01 虚拟 机 后 续 将 
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作为 Hadoop 集群 主 节点 ,所 以 通常 会 分 配 较 多 的 内 存 , 如 图 2-5 所 示 。 
[sssmss 本 i 区 本 | 


EE 
此 虚拟 机 的 内 存 
您 要 为 此 虚拟 机 使 用 多 少 内 存 ? 


指定 分 配给 此 虚拟 机 的 内 存量 。 内 存 大 小 必须 为 4 MB 的 信 数 " 


此 虚拟 机 的 内 存 (M): _ 4096 同 Me 


回 最 大 推荐 内 存 : 
13728 MB 


口 客户 机 操作 系统 最 低 推荐 内 存 : 
512 MB 


图 2-5 虚拟 机 内 存 


(6) 在 图 2-5 中 完成 内 存 设置 后 ,根据 向 导 可 以 使 用 默认 安装 方式 连续 单 击 “ 下 一 步 ” 
按钮 。 当 进入 到 “指定 磁盘 容量 "界面 后 ,可 以 根据 实际 需要 并 结合 PC 端 硬件 情况 合理 选 
择 “ 最 大 磁盘 大 小 ”( 此 处 演示 使 用 默认 值 20.0GB) ,如 图 2-6 所 示 。 


新 奸 虞 所 机 向 导 | 


”a 
指定 磁盘 容量 
磁盘 大 小 为 多 少 ? 


最 大 磁盘 大 小 (GB)(S): 20.0 出 


针对 CentOS 64 位 的 建议 大 小 : 20 GB 


回 立即 分 配 所 有 碰 盘 空间 (A)。 


分 配 所 有 容量 可 以 提高 性 能 ， 但 要 求 所 有 物理 磋 盘 空间 立即 可 用 。 如 果 不 立 即 分 配 
所 有 空间 ， 虚 拟 磁 盘 的 空间 最 初 很 小 ， 会 糊 着 您 向 其 中 添加 数据 而 不 断交 大 。 


日 将 点 天 各 存储 为 单个 文件 (0) 
加 将 虚拟 磋 盘 拆 分 成 多 个 文件 (M) 

后 "可 机 地 全 it 半 机 之 同乡 动 大权 机 ， 但 能 从 作 大 时 的 
[| [上 = 上 四 ] [下 - 步 册 > | [了 消 


图 2-6 指定 磁盘 容量 
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(7) 在 图 2-6 中 完成 磁盘 容量 设置 后 ,再 次 根据 向 导 可 以 使 用 默认 安装 方式 连续 单 击 
“下 一 步 " 按 钮 。 当 进入 到 “已 准备 好 创建 虚拟 机 ”界面 ,就 可 以 查看 当前 设置 的 要 创建 的 虚 
拟 机 参数 ,在 确认 无 误 后 单 击 “完成 "按钮, 即 可 完成 新 建 虚拟 机 的 设置 ,如 图 2-7 所 示 。 


[sssmss 二 > 
已 准备 好 创建 虚拟 机 
单 击 ` 完 成" 创建 虚拟 机 。 然 后 可 以 安装 CentOS 6 64 位 。 
将 使 用 下 列 设 置 他 汗 并 所 机 ; 
名 称 : Hadoop01 
位 置 : D:\tcast-Hadoop\Hadoop01 
版 本 : ‘Workstation 12.x 
操作 系统 : Centos6 64 位 
硬盘 : 20 GB, 拆 分 
内 存 : 4096 MB 
网 络 适配器 : NAT 
其 他 设备 : 2 个 CPU 内 核 , CD/DVD, USB8 控制 器 , 打印 机 , 声卡 
自 定义 硬件 (C)… 
Cam ]( ms 
图 2-7 创建 完成 


根据 上 述 步 又 和 说 明 进 行 操 作 , 就 可 以 完成 新 建 虚拟 机 的 设置 ,不 过 接 下 来 ,还 需要 对 
该 虚拟 机 进行 启动 和 初始 化 。 


2. 虚拟 机 启动 初始 化 


(1) 选中 创建 成 功 的 Hadoop01 虚拟 机 , 右 击 打开 “虚拟 机 设置 "中 的 “CD/DVD(IDE)” 
选项 ,选中 “使 用 ISO 镜像 文件 (M) "选项 .并 单 击 “ 浏 览 (B) ”按钮 来 设置 ISO 镜像 文件 的 具 
体 地 址 (此 处 根据 前 面 操 作 系 统 的 设置 使 用 CentOS 镜像 文件 来 初始 化 Linux 系统 ), 如 
图 2-8 所 示 。 

(2) 设置 完 ISO 镜像 文件 后 , 单 击 图 2-8 中 的 “确定 ”按钮 ,然后 选择 当前 Hadoop01 主 
界面 的 “打开 虚拟 机 ”选项 ,来 启动 Hadoop01 虚拟 机 ,如 图 2-9 所 示 。 

(3) 选择 图 2-9 中 的 第 一 条 “Install or upgrade an existing system” 选 项 ,引导 驱动 加 载 
完毕 进入 “Disc Found” 界 面 .如 图 2-10 所 示 。 

(4) 在 图 2-10 界面 中 , 按 下 Tab 键 切换 至 “Skip” 选 项 并 按 下 Enter 键 进入 到 CentOS 
操作 系统 的 初始 化 过 程 。 先 单 击 界面 的 “Next” 按 钮 进入 到 系统 语言 设置 界面 ,为 了 后 续 软 
件 及 系统 兼容 性 ,通常 会 使 用 默认 的 “English(English)” 选 项 作为 系统 语言 (为 了 方便 查看 
也 可 以 选择 “Chinese(Simplified) (中 文 (简体 ))” 系 统 语言 ) ,如 图 2-11 所 示 。 

(5) 设置 好 系统 语言 后 ,使 用 系统 默认 配置 连续 单 击 界面 的 “Next( 下 一 步 )” 按 钮 。 当 
进入 到 “Storage Device Warning( 存 储 设备 警告 )” 界 面 时 ,选择 “Yes,discard any data( 是 ， 
忽略 所 有 数据 )” 选 项 ,如 图 2-12 所 示 。 
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文件 虽 “ 帝 丰 昌 ”二 吾 O 


库 


网 CD/DVD (IDE】 自动 从 列 2 


EE NAT 合用 攀 酌 动 器 (P): 

图 Use 阐 吕 存在 i 

[1 自动 检 列 

却 Ep 机 存在 全 使 用 ISO 聘 信件 (MY 

时 27 和 3 sb DxSoft\Cent05-6.7-x86 64 ~ EC 由 


BV | 


ET ET 


图 2-8 ” 挂 载 镜像 


Helcone to Cent0S 6.7+ 


[nstall or upgrade an existing systen 

Install system uith basic uideo driuer 
e installed systen 

Boot fron local drive 

Memory test 


[Tab] to edit options 


CentOS6 


Community ENTerprise Operating System 


图 2-9 安装 界面 


1 pisc Found | 


To begin testing the media before 
installation press OK. 


Choose Skip to skip the media test 
and start the installation. 


图 2-10 媒体 选择 
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What language would you like to use during the 
installation process? 


Bulgarian (Eunrapckm) 门 
Catalan (Catala) 
Chinese(Simplified) (中 文 〈 简 体 ) ) 
Chinese(Traditional) (中 文 (正体 ) ) 
Croatian (Hrvatski) 

Czech (Cestina) 

Danish (Dansk) 

Dutch (Nederlands) 

Estonian (eesti keel) 
Finnish (suomi) 
French (Francais) 
German (Deutsch) 
Greek (EAAnviKG) 
Gujarati (avadl) 
Hebrew (nmay) 
Hindi (Br) OD 


图 2-11 系统 语言 设置 


Storage Device Warning 


人 The storage device below may contain data. 


= VMware, VMware Virtual S 
8 20480.0 MB pci-0000:00:10.0-scsi-0:0:0:0 


We could not detect partitions or filesystems on this device. 
This could be because the device is blank, unpartitioned, 
or virtual. If not, there may be data on the device that can 
not be recovered if you use it in this installation. We can 
remove the device from this installation to protect the data. 


Are you sure this device does not contain valuable data? 


Apply my choice to all devices with undetected partitions or filesystems 
Yes, discard any data No, keep any data 


图 2-12 存储 设备 警告 


(6) 执行 完 图 2-12 所 示 的 磁盘 格式 后 ,会 立刻 跳 转 到 主机 名 hostname 设置 界面 , 自 定 
义 该 台 虚 拟 机 的 主机 名 hostname( 此 处 设置 该 台 虚 拟 机 主机 名 hostname 为 hadoop01) ,如 


图 2-13 所 示 。 


(7) 完成 主机 名 hostname 设置 后 ,继续 单 击 图 2-13 中 的 “Configure Network( 网 络 配 
置 )? 选 项 ,在 弹出 的 窗口 中 选择 唯一 的 网 卡 “System eth0” 并 单 击 Edit( 编 辑 ) 按 钮 ,会 出 现 
一 个 网 络 配置 的 新 弹出 窗口 ,在 新 弹出 窗口 中 选中 “Connect automatically( 自 动 连接 )” 选 
项 ,并 单 击 “Apply( 应 用 ) "按钮 ,如 图 2-14 所 示 。 
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和 Please name this computer. The 
Ee hostname identifies the computer on a 
= network. 


Hostname 


KT 


图 2-13 主机 名 配置 


Editing System ethO 


neeme dennes 
tnal t 


Connection name: [System etho 


回 Connect automaticall 


回 Available to all users 


Hostname: 


IPv4 Settings | IPv6 Settings | 


Device MAC address，|00:0C:29:0F:B3:A6 
Cloned MAC address: 
MTU: automatic [S| bytes 


Lee Ce Sw 


图 2-14 网 络 配 置 


(8) 完成 主机 名 和 网 络 配 置 后 , 单 击 界面 的 “Next( 下 一 步 )” 按 钮 ,进行 系统 时 区 的 选 
择 , 此 处 通常 会 选择 Asia/ShangHai( 亚 洲 / 上 海 ), 如 图 2-15 所 示 。 

(9) 完成 系统 时 区 配置 后 , 单 击 界面 的 “Next( 下 一 步 )” 按 钮 ,进入 到 root 用 户 密 码 设 
置 界面 ,读者 可 以 自 定义 root 用 户 密码 ,但 是 要 求 密码 长 度 最 低 6 个 字符 (如 果 密 码 强 度 较 
低 可 能 出 现 提示 窗 ,直接 单 击 *Use Anyway( 无 论 如 何 都 用 )” 选 项 即 可 ) ,如 图 2-16 所 示 。 
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Please select the nearest city in your time zone: 


Selected city: Shanghai, Asia (Beijing Time) 


Asia/Shanghai 人 


回 System clock uses UTC 


| 和 Back | | 路 Next 


图 2-15 系统 时 区 配置 


the system，Enter a password for the root 


x | The root account is used for administering 
User. 


Weak Password 


You have provided a weak password: it 
is based on a dictionary word 


和 Back | | 哆 Next | 


图 2-16 系统 root 用 户 密码 设置 


(10) 完成 系统 root 用 户 密码 设置 后 . 单 击 界面 的 “Next( 下 一 步 )” 按 钮 ,进入 到 磁盘 修改 
格式 化 界面 ,直接 单 击 “Wirite changes to disk( 将 修改 写 入 磁盘 )” 选 项 即 可 ,如 图 2-17 所 示 。 

执行 完 上 述 操作 后 ,该 虚拟 机 就 会 进入 磁盘 格式 化 过 程 , 稍 等 片刻 就 会 跳 转 到 CentOS 
系统 安装 成 功 的 界面 。 在 安装 成 功 界面 , 单 击 *Reboot( 重 启 )” 按 钮 进行 重新 引导 系统 ,至 
此 ,就 完成 了 CentOS 虚拟 机 的 安装 。 
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Writing storage configuration to disk 


The partitioning options you have selected 
will now be written to disk. Any data on 
deleted or reformatted partitions will be lost. 


CE 


图 2-17 磁盘 格式 化 


为 了 规范 后 续 Hadoop 集群 相关 软件 和 数据 的 安装 配置 ,这 里 在 虚拟 机 的 根 目录 下 创 
建 一 些 文件 夹 作为 约定 ,具体 如 下 : 

@ /export/data/ : 存放 数据 类 文件 ; 

@ /export/servers/ : 存放 服务 类 软件 ; 

图 /export/software/: 存放 安装 包 文件 。 


2.1.2 虚拟 机 克隆 


目前 已 经 成 功 安装 好 了 一 台 搭 载 CentOS 镜像 文件 的 Linux 系统 ,而 一 台 虚 拟 机 远 远 
不 能 满足 搭建 Hadoop 集群 的 需求 .因此 需要 对 已 安装 的 虚拟 机 进行 克隆 。VMware 提供 
了 两 种 类 型 的 克隆 ,分 别 是 完整 克隆 和 链接 克隆 ,具体 介绍 如 下 。 
。 完整 克隆 : 是 对 原始 虚拟 机 完全 独立 的 一 个 复制 , 它 不 和 原始 虚拟 机 共享 任何 资 
源 ,可 以 脱离 原始 虚拟 机 独立 使 用 。 
。 链接 克隆 : 需要 和 原始 虚拟 机 共享 同一 虚拟 磁盘 文件 ,不 能 脱离 原始 虚拟 机 独立 运 
行 。 但 是 ,采用 共享 磁盘 文件 可 以 极 大 缩短 创建 克隆 虚拟 机 的 时 间 , 同 时 还 节省 物 
理 磁盘 空间 。 通 过 链接 克隆 ,可 以 轻松 地 为 不 同 的 任务 创建 一 个 独立 的 虚拟 机 。 
以 上 两 种 克隆 方式 中 ,完整 克隆 的 虚拟 机 文件 相对 独立 并 且 安 全 ,在 实际 开发 中 也 较为 
常用 。 因 此 ,此 处 以 完整 克隆 方式 为 例 , 分 步 又 演示 虚拟 机 的 克隆 。 
(1) 关闭 Hadoop01 虚拟 机 .在 VMware 工具 左 侧 系统 资源 库 中 右 击 Hadoop01, 选 择 
“管理 ”列表 下 的 “克隆 "选项 ,弹出 克隆 虚拟 机 向 导 , 如 图 2-18 所 示 。 
(2) 根据 克隆 向 导 连 续 单 击 界面 中 的 “下 一 步 ” 按 钮 .进入 到 “克隆 类 型 "界面 后 ,选择 
“创建 完整 克隆 (F)” 选 项 ,如 图 2-19 所 示 。 
(3) 选择 完整 克隆 方式 后 , 单 击 图 2-19 中 的 “下 一 步 " 按 钮 ,进入 到 “新 虚拟 机 名 称 ” 界 
面 ,在 该 界面 自 定义 新 虚拟 机 名 称 和 位 置 . 如 图 2-20 所 示 。 
在 图 2-20 所 示 界 面 中 ,设置 好 新 虚拟 机 名 称 和 位 置 后 , 单 击 “ 完 成 ”按钮 就 会 进入 新 虚 
拟 机 克隆 过 程 , 稍 等 片刻 就 会 跳 转 到 虚拟 机 克隆 的 结果 界面 。 在 克隆 成 功 界面 , 单 击 “ 关 闭 ” 
按钮 就 完成 了 虚拟 机 的 克隆 。 
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欢迎 使 用 克隆 虚拟 机 向 导 


WO 二 和 于 和 和 刘 此 下 和 各 本 
9 其 他 用 户 8 律 此 虚拟 机 的 吉隆 ， 
| 和 


图 2-18 克隆 虚拟 机 向 导 


克隆 类 型 
您 希望 如 何 克 隆 此 虚拟 机 ? 
克隆 方法 
D 人 键 搓 接 克隆 (L) 
梯 接 克隆 是 对 原始 虚拟 机 人 引用 ， 所 需 的 存储 弯 盘 空间 校 少 。 但 是 ， 必 须 能 够 
访问 原始 虚拟 机 才能 运行 。 
加 Bl 汗 充 束 克 奉 (F) 
i 此 副本 虚拟 机 完全 独立 ， 但 需要 较 
CE- 
图 2-19 克隆 类 型 选择 
新 虚拟 机 名 称 
您 要 为 此 虚拟 机 使 用 什么 名 称 ? 
虚拟 机 名 称 (Y) 
Hadoop02 
位 置 (L) 
D:\Itcast-Hadoop\Hadoop02 浏览 (R)… 


图 2-20 新 建 虚拟 机 名 称 
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上 面 完 整 演示 了 一 台 虚 拟 机 的 克隆 ,如 果 想 克隆 多 人 台 虚 拟 机 ,重复 上 述 操作 即 可 。 
2.1.3 Linux 系统 网 络 配置 


前 面 两 小 节 介绍 了 虚拟 机 的 安装 和 克隆 ,但 是 通过 前 面 方式 安装 的 虚拟 机 Hadoop01 
虽然 能 够 正常 使 用 ,但 是 该 虚拟 机 的 IP 是 动态 生成 的 ,在 不 断 的 开 停 过 程 中 很 容易 改变 , 非 
常 不 利于 实际 开发 ;而 通过 Hadoop01 克隆 的 虚拟 机 (假设 克隆 了 2 个 虚拟 机 Hadoop02 和 
Hadoop03) 则 完全 无 法 动态 分 配 到 IP, 直 接 无 法 使 用 。 因 此 ,还 需要 对 这 三 台 虚 拟 机 的 网 
络 分 别 进行 配置 。 

接 下 来 ,本 节 就 对 如 何 配置 虚拟 机 网 络 进行 详细 讲解 (此 处 以 克隆 的 Hadoop02 虚拟 机 
为 例 进 行 演示 说 明 ) ,具体 如 下 。 


1. 主机 名 和 IP 映射 配置 


开启 克隆 的 虚拟 机 Hadoop02, 输 入 root 用 户 的 用 户 名 和 密码 后 进入 虚拟 机 系统 。 然 
后 ,在 终端 窗口 按照 下 列 说 明 进 行 主机 名 和 IP 映射 的 配置 。 
(1) 配置 主机 名 ,具体 指令 如 下 。 


5 Vi /etc/sysconfig/network 


执行 上 述 指令 后 ,在 打开 的 界面 对 HOSTNAME 选项 进行 重新 编辑 ,根据 个 人 实际 需 
求 进行 主机 名 配置 (此 处 将 Hadoop02 虚拟 机 主机 名 配置 为 hadoop02)。 后 续 演 示 Hadoop 
集群 搭建 时 ,会 将 Hadoop01、Hadoop02、Hadoop03 主机 名 依次 设置 为 hadoop01、hadoop02 
和 hadoop03。 

(2) 配置 IP 映射 。 

配置 IP 映射 ,要 明确 当前 虚拟 机 的 IP 和 主机 名 ,主机 名 可 以 参考 前 面 已 配置 的 主机 
名 ,但 IP 地 址 必须 在 VMware 虚拟 网 络 IP 地 址 范围 内 。 所 以 ,这 里 必须 先 清 楚 可 选 的 IP 
地 址 范围 , 方 可 进行 IP 映射 配置 。 

首先 ,选择 VMware 工具 的 “编辑 "菜单 下 的 “虚拟 网 络 编辑 (N)” 菜 单项 ,打开 虚拟 网 络 
编辑 器 ;接着 ,选中 “NAT 模式 ”类 型 的 VMnet8, 单 击 “DHCP 设置 (P)” 按 钮 会 出 现 一 个 
DHCP 设置 窗口 ,如 图 2-21 所 示 。 

从 图 2-21 可 以 看 出 ,此 处 VMware 工具 允许 的 虚拟 机 IP 地 址 可 选 范围 (192. 168. 121. 
128 一 192. 168. 121. 254, 不 同 电脑 网 络 可 能 不 同 )。 至 此 ,就 明确 了 要 配置 IP 映射 的 IP 地 
址 可 选 范围 ( 且 不 建议 使 用 已 用 IP 地 址 ) 。 

然后 ,执行 如 下 指令 对 IP 映射 文件 hosts 进行 编辑 。 


$ Vi /etc/hosts 


执行 上 述 指 令 后 ,会 打开 一 个 hosts 映射 文件 ,为 了 保证 后 续 相 互 关联 的 虚拟 机 能 够 通 
过 主机 名 进行 访问 ,根据 实际 需求 配置 对 应 的 IP 和 主机 名 映射 ,如 图 2-22 所 示 。 

从 图 2-22 可 以 看 出 ,此 处 分 别 将 主机 名 hadoop01、hadoop02、hadoop03 与 IP 地 址 
192. 168. 121. 134、192. 168. 121. 135 和 192. 168. 121. 136 进行 了 匹配 映射 (这 里 通常 要 根 
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旧 走 拟 网络 编 弓 器 
名 称 。 类 型 。 外 部 连接 主机 连接 DHcP ”于 网 地 址 
VMnet0 桥接 模式 .所 动 话 接 
YMneti ” 仅 过 iDHcp 设置 


vmnets -NAT 


网 络 : 
子 网 P: 


了 网 撞 码 : 255.255.255.0 
| eB Pei) 192 .168 .121.128 | 
结束 天 地址 EE); 。 192 . 168 .121 .254 
广播 地 址 : 192.168.121.255 


默认 租用 时 间 (D): 0 
最 长 租用 时 间 (M): 0 


vmnetS 
192.168,121.0 


天 : 小 时 


还 原 默认 设置 @) 


主机 虚拟 适配器 名 称 : VMware 网 络 适配器 VMnet8 
回 使 用 本 地 DHCP 服务 将 p 地 址 分 配给 虚拟 机 O) 


子 网 PP@: 192 .168 .121 


0 子 网 搞 码 MW): 255 .255 .255 , 0 


证 aa = 取消 ea] [ 应 用 A) ] (部 助 a] 


2-21 DHCP 设置 


Hodoopo2 -VMware Workstation 


gd | 


文件 昌 。 篇 锅 (E) 查看 (W) 起 拟 机 (M) 选项 卡 (D 


um) | 中 ~ | 未 各 | 四 加 只 局 | 国 


库 
Q、 在 此 处 刍 入 内 容 进 f 


天 我 的 计算 机 
四 虚拟 系统 
加 hadoopol 
Hadoop02 
| 转 Hadoop03 
里 共享 的 虚拟 机 


基 格 给 入 定向 到 该 眠 拟 机 ， 请 在 皮 拟 机 内 部 单 二 或 按 Ctrl+G。 局 司 风 澡 开 日 | 国 
kL ~ 


图 2-22 IP 映射 


据 实际 需要 ,将 要 搭建 的 集群 主机 都 配置 主机 名 和 IP 映射 ) 。 读 者 在 进行 IP 映射 配置 时 ， 
可 以 根据 自己 的 DHCP 设置 和 主机 名 规划 IP 映射 。 

小 提示 : 需要 说 明 的 是 ,此 处 的 主机 名 和 IP 映射 配置 并 不 是 Hadoop 集群 搭建 准备 环 
境 的 必须 项 ,读者 也 可 以 不 必 进 行 此 步 操作 。 只 是 通常 情况 下 ,为 了 更 方便 进行 文件 配置 和 
虚拟 机 联系 ,都 会 进行 主机 名 和 IP 映射 配置 
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2. 网 络 参 数 配 置 


上 一 步 中 ,对 虚拟 机 的 主机 名 和 IP 映射 进行 了 配置 ,而 想 要 虚拟 机 能 够 正常 使 用 ,还 需 
要 进行 网 络 参数 配置 。 
(1) 修改 虚拟 机 网 卡 配 置 文 件 ,配置 网 卡 设备 的 MAC 地 址 ,具体 指令 如 下 。 


$ vi /etc/uiev/niles.d/710- persistent— net.mles 


执行 上 述 指令 后 ,会 打开 当前 虚拟 机 的 网 卡 设备 参数 文件 ,如 图 2-23 所 示 。 


[@@ Hadoop02 -VMware Workstation cl 


t 
号 Hadoop02 
号 Hadoop03 
早 共 训 的 直 氢 从 


要 构 给 入 定向 到 访 虑 拟 机 ， 请 在 虚拟 机 内 部 单 二 或 按 Ctrl+G。 EBL EXIT) 
[| 


图 2-23 网 卡 配 置 

由 于 虚拟 机 克隆 的 原因 ,在 Hadoop02 虚拟 机 Re | 
中 会 有 eth0 和 ethl 两 块 网 卡 (Hadoop01 虚拟 机 伟 入 作答 ee ee 
只 有 一 块 eth0 网 卡 ) ,此 处 删除 多 余 的 ethl 网 卡 配 带 帘 (B): TB 限 ~ 
置 ,只 保留 eth0 一 块 网 卡 , 并 且 修 改 参 数 ATTR Kbps(k): 
{address) 一 一 "当前 虚拟 机 的 MAC 地 址 "( 另 一 | 园 拓 3%)@) 9 E | 
种 更 简单 的 方式 是 ,删除 eth0 网 卡 ,将 ethl 网 卡 的 付出 传输 | 
参数 NAME 一 "ethl" 修 改 为 NAME 一 "eth0") ss Ca 

为 了 查看 当前 虚拟 机 的 MAC 地 址 , 右 击 当前 |‖ ww 二 
虚拟 机 的 “设置 ?列表 并 选中 * 网 络 适 配器 ?选项 , 接 | 
着 单 击 窗口 右 侧 的 “高 级 (V)” 按 钮 ,会 出 现 一 个 新 “|| se rr 


窗口 ,如 图 2-24 所 示 
从 图 2-24 可 以 看 出 .当前 Hadoop02 虚拟 机 的 确定 = ] [= 取消 =] [者 助 -|] 
MAC 地 址 为 00:50:56:25:14:8E., 而 不 同 的 虚拟 
机 MAC 地 址 是 唯一 的 。 
(2) 修改 IP 地 址 文件 ,设置 静态 了 ,具体 指令 如 下 。 


图 2-24 虚拟 机 MAC 地 址 


中 
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小 
~ 
-1 


$ vi /etc/sysconfig/networic scripts/ifcfg ethO 


执行 上 述 指令 后 ,会 打开 虚拟 机 的 IP 地 址 配置 界面 ,如 图 2-25 所 示 
| 国 Hadoop02 -VMware Workestation 一 | (s,m 
文件 四” 篇 可 看 MW) 虚 的 机 (W。 进项 # 四 帮助 由 | 有 ~ | 号 | 从 人 乡 | 四 器 号 凡 | 国 


Hadoop07 x | Hodoopr: 


| 要 禁 纺 入 定向 到 六 虚拟 机 , 请 在 起 拟 机 内 部 单 二 或 按 Ctrl+G。 


2-25 ”IP 地 址 配置 


在 图 2-25 所 示 的 IP 地 址 配置 界面 ,根据 需要 通常 要 配置 或 修改 以 下 7 处 参数 

。 ONBOOT=yes: 表示 启动 这 块 网 卡 ; 

。 BOOTPROTO= static: 表示 静态 路 由 协议 ,可 以 保持 IP 固定 ; 

。 HWADDR: 表示 虚拟 机 MAC 地 址 ,需要 与 当前 虚拟 机 MAC 地 址 一 致 ; 

。 IPADDR: 表示 虚拟 机 的 IP 地 址 ,这 里 设置 的 IP 地 址 要 与 前 面 IP 映射 配置 时 的 IP 
地 址 一 致 , 否 则 甬 过 主机 名 找到 对 应 IP; 

。 GATEWAY: 表示 虚拟 机 网 关 , 通 常 都 是 将 IP 地 址 最 后 一 个 位 数 变 为 2; 

NETMASK: 表示 虚拟 机 子 网 掩 码 ,通常 都 是 255. 255. 255. 0; 

DNS1: 表示 域名 解析 器 ,此 处 采用 Google 提供 的 免费 DNS 服务 器 8. 8. 8. 8( 也 可 

以 设置 为 PC 端 电脑 对 应 的 DNS) 


3. 配置 效果 验证 
完成 上 述 两 个 步骤 的 操作 后 ,还 需要 重启 虚拟 机 方 可 使 当前 配置 生效 ,这 里 可 以 使 用 


reboot 指 


和 启 系统 。 
系统 重启 完毕 后 , 先 通过 ifconfig 指令 查看 IP 配置 是 否 生效 ,如 图 2-26 所 示 。 
图 2-26 中 看 出 ,Hadoop02 主机 的 IP 地 址 已 经 设置 为 192. 168. 121. 135。 接 下 来 执 
行 “ping www. baidu. com” 指 令 检 测 网 络 连 接 是 否 正常 (前 提 是 安装 虚拟 机 的 PC 端 电脑 可 
以 正常 上 网 ) ,如 图 2-27 所 示 。 

从 图 2-27 可 以 看 出 ,虚拟 机 能 够 正常 地 接收 数据 ,并 且 延 迟 正常 ,说 明 网 络 连接 正常 。 
至 此 ,当前 虚拟 机 的 网 络 配置 完毕 ,虚拟 机 参考 上 述 步骤 重复 操作 即 可 。 


洋 


2 
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| 国 Hadoop02 -VMware Workstation bb BE [= 1 lm 
文件 四 ” 编 涪 日 吉 看 WM 。 虚拟 机 (W)。 远 夺 FD 帮助 也 | 有 | 鱼 | 了 名 || 加 器 号 岂 | 国 


加 Ht 机 
昌国 虞 扩 系 统 
节 Hadoopol 
加 Hadoop02 
邑 Hadoop03 
里 # 训 的 二 th 


昌国 虚拟 系统 
加 Hadoopol 
吨 Hadoop02 
局 Hadoop03 

时 共享 的 


要 榜 绽 入 定向 到 该 虑 拟 机 ,请 在 虑 拟 机 内 部 单 主 或 按 Ctr|+G。 


要 给 入 定向 到 这 直 拟 册 ， 请 在 虚拟 机 内 部 单 二 或 按 Ctrl+G。 TEXT 
图 2-26 查看 IP 配置 
| 国 Hedoop02 -VMware Workstation bb 和 ”可 Lo | © /| 
文件 昌 ” 妨 纺 EE) ”查看 W) 虚拟 机 (M) 选项 #CD 帮助 册 | 中 ~ -ed | 四 叫 | 时 


FBRLETTIED" 


2-27 ”验证 网 络 连接 


2.1.4 SSH 服务 配置 


通过 前 面 的 操作 ,已 经 完成 了 三 台 虚 拟 机 Hadoop01、Hadoop02 和 Hadoop03 的 安装 和 


网 络 配置 ,虽然 这 些 虚拟 机 已 经 可 以 正常 使 用 了 ， 
(1) 实际 工作 中 ,服务 器 被 放置 在 机 房 中 , 同 
不 会 进入 机 房 直接 上 机 操作 ,而 是 通过 远程 连接 朋 


但 是 依然 存在 下 列 问题 。 
时 受到 地 域 和 管理 的 限制 ,开发 人 员 通 常 
民 务 器 ,进行 相关 操作 。 


(2) 在 集群 开发 中 , 主 节 点 通常 会 对 集群 中 各 个 节点 频繁 地 访问 ,就 需要 不 断 输入 目标 
服务 器 的 用 户 名 和 密码 ,这 种 操作 方式 非常 麻烦 并 且 还 会 影响 集群 服务 的 连续 运 和 


为 了 解决 上 述 问 题 ,可 以 通过 配置 SSH 服务 


来 分 别 实现 远程 登录 和 SSH 免 密 登录 功 
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能 。 接 下 来 ,就 分 别 对 这 两 种 服务 配置 和 说 明 进 行 详细 讲解 。 
1. SSH 远程 登录 功能 配置 


SSH 为 Secure Shell 的 缩写 , 它 是 一 种 网 络 安全 协议 , 专 为 远程 登录 会 话 和 其 他 网 络 服 
务 提供 安全 性 的 协议 。 通 过 使 用 SSH 服务 .可 以 把 传输 的 数据 进行 加 密 , 有 效 防止 远程 管 
理 过 程 中 的 信息 泄露 问题 。 

为 了 使 用 SSH 服务 ,服务 器 首先 必须 安装 并 开启 相应 的 SSH 服务 。 在 CentOS 系统 
下 ,可 以 先 执行 “rpm -qa | grep ssh” 指 令 查看 当前 机 器 是 否 安装 了 SSH 服务 ,同时 使 用 "ps 
-e | grep sshd” 指 令 查 看 SSH 服务 是 否 启 动 ,如 图 2-28 所 示 。 


mT : 


2-28 查看 是 否 安装 和 开启 SSH 服务 


从 图 2-28 可 以 看 出 ,CentOS 虚拟 机 已 经 默认 安装 并 开启 了 SSH 服务 ,所 以 不 需要 进 
行 额外 安装 就 可 以 进行 远程 连接 访问 (如 果 没 有 安装 ,CentOS 系统 下 可 以 执行 “yum install 
openssh-server” 指 令 进行 安装 ) 。 
在 目标 服务 器 已 经 安装 SSH 服务 并 且 支 持 远程 连接 访问 后 ,在 实际 开发 中 ,开发 人 员 
通常 会 通过 一 个 远程 连接 工具 来 连接 访问 目标 服务 器 。 本 教材 就 介绍 一 个 实际 开发 中 常用 
的 SecureCRT 远程 连接 工具 来 演示 远程 服务 器 的 连接 和 使 用 。 
SecureCRT 是 一 款 支持 SSH 的 终端 仿真 程序 , 它 能 够 在 Windows 操作 系统 上 远程 连 
接 Linux 服务 器 执行 操作 。 本 书 采 用 SecureCRT 7. 2 版 本 进行 介绍 说 明 ,读者 可 以 通过 地 


址 https://www. vandyke. com/download/ idc  EE) 
securecrt/7. 2/index. html 自行 下 载 安装 。 || poweor 

下 载 安装 完成 后 ,按照 以 下 操作 进行 远程 连 || tosname: [192168.121134 

接 访问 。 art 可 Be 


(1) 打开 SecureCRT 远程 连接 工具 , 单 
击 导航 栏 上 的 【File (文件 )】 一 【Quick 


| [ Properties. 


Connect( 快 速 连接 )] 创 建 快速 连接 ,并 根据 忆 
虚拟 机 的 配置 信息 进行 设置 , 如 图 2-29 
所 示 。 回 show quidk connecton startup 团 Save session 
在 图 2-29 所 示 的 快速 连接 设置 中 ,主要 回 penna tb 
是 根据 要 连接 远程 服务 器 设置 了 目标 主机 名 | 


为 192. 168. 121. 134( 即 Hadoop01 ) 的 
为 I adoop01 虚拟 机 的 图 2-29 创建 快速 链接 
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IP 地 址 ?的 主机 和 登录 用 户 root, 而 其 他 相关 设置 通常 情况 下 使 用 默认 值 即 可 。 

(2) 设置 完 快 速 连接 配置 后 , 单 击 图 2-29 中 的 “Connect( 连 接 )” 按 钮 ,会 弹出 “New 
Host Key( 新 建 主机 秘 钥 )” 对 话 框 (主要 用 于 秘 钥 信息 发 送 确 认 ), 如 图 2-30 所 示 。 

(3) 单 击 图 2-30 中 的 “Accept&.Save( 接 收 并 保存 )” 按 钮 。 保 存 完 毕 后 ,客户 端 需要 输 
人 目标 服务 器 的 用 户 名 和 密码 ,并 且 可 以 单 击 *“Save password( 保 存 密码 )” 复 选 框 ,避免 下 
次 连接 重复 要 求 输入 密码 ,如 图 2-31 所 示 。 


ey 


The host key database does not contain an entry for the i 
企 Enter Secure Shell Password 


root@192.168. 121. 129 requires a password. Ex 
Please enter a password now. E 一 一 一 
| Cnee | 


TItis recommended you verify your host key before accepting. 
Server's host key fingerprint (MD5 hash): Usemame: root 
90:7b:d8:e8:24 作 b0:38:57.6d:95:8e:25:50:45:28 
Password: eeeeee 
ere] ee | 
图 2-30” 秘 钥 信 息 发 送 确 认 图 2-31 输入 用 户 名 密码 


(4) 在 图 2-31 中 输入 正确 的 用 户 名 和 密码 后 , 单 击 “OK( 确 定 )” 按 钮 ,SecureCRT 远程 
连接 工具 就 会 自动 连接 到 远程 目标 服务 器 ,如 图 2-32 所 示 。 


文件 (月 ”编辑 (E) ”查看 (V) ”选项 (O) 传输 (]) 脚本 (S) 工具 ( ET 
EEISEE ET YE pA 


| 192.168.121.134 


图 2-32 SecureCRT 远程 连接 到 Hadoop01 服务 器 


进入 到 图 2-32 所 示 界 面 ,就 表示 通过 SecureCRT 远程 连接 服务 器 成 功 ,后 续 就 可 以 像 
在 虚拟 机 终端 窗口 一 样 ,也 可 以 在 该 工具 容 户 端 上 操作 虚拟 机 。 


2. SSH 免 密 登录 功能 配置 


前 面 介绍 了 SSH 服务 ,并 实现 了 远程 登录 功能 ,而 想 要 实现 多 台 服 务 器 之 间 的 免 密 登 
录 功 能 还 需要 进一步 设置 。 下 面 就 详细 讲解 如 何 配 置 SSH 免 密 登 录 ,具体 如 下 。 

(1) 在 需要 进行 统一 管理 的 虚拟 机 上 (如 后 续 会 作为 Hadoop 集群 主 节点 的 
Hadoop01) 输 入 “ssh-keygen -t rsa” 指 令 , 并 根据 提示 ,可 以 不 用 输入 任何 内 容 , 连 续 按 4 次 
Enter 键 确认 ,接着 就 会 在 当前 虚拟 机 的 root 目录 下 生成 一 个 包含 有 秘 钥 文件 的 . ssh 隐藏 
文件 。 在 虚拟 机 的 root 目录 下 通过 “ll -a” 指 令 可 以 查看 当前 目录 下 的 所 有 文件 (包括 隐藏 
文件 ) ,然后 进入 到 . ssh 隐藏 目录 ,查看 当前 目录 的 文件 ,如 图 2-33 所 示 。 

在 图 2-33 中 ,. ssh 隐藏 目录 下 的 id_rsa 就 是 生成 的 Hadoop01 私 钥 ,id_rsa. pub 为 公 钥 。 
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图 19216s121134 - secureCRT 
文件 (月 ”编辑 (E) ”查看 (V) ”选项 (DO) 传 纺 () 。 胖 本 (S) 工具 (D 帮助 (H) 
渔 习 加 加 将 | 司 钨 的 | 吗 瑟 本 | 可 站 9 加 | 国 昌 


[Ce 
就 省 ssh2: AES-256-CTR 6，23 6 行 , 99 列 VT100 大 写 数字 


图 2-33 .ssh 目录 文件 


(2) 在 生成 秘 钥 文件 的 虚拟 机 Hadoop01 上 ,执行 相关 指令 将 公 钥 复制 到 需要 关联 的 
服务 器 上 (包括 本 机 )。 如 执行 “ssh-copy-id hadoop02” 指 令 可 以 将 公 钥 文件 复制 到 主机 名 
为 hadoop02 的 虚拟 机 上 (复制 到 其 他 服务 器 ,指令 只 需 修改 主机 名 即 可 ) ,如 图 2-34 所 示 。 


| 
文件 (月 ”编辑 (E) ”查看 (V) ”选项 (D) 传输 () 脚本 (S) 工具 (D 帮助 (H) 
渔 习 回 涪 凋 | 注 配 的 | 吗 避 马琳 站 | 加 | 国 旧 
[EDEET hunan 


ER 
Now Try Pogging gmEO ERe machine, with "ssh "hadoopoz'，and check in: 


.ssh/authorized_keys 


to make sure we haven't added extra keys that you weren't expecting. 
Leoradoontn: “Eshashi hed 

Last login; a 32532018 fron hadoopo1 加 
[roorehadoopO2 


E23 ssh2; AES-256-CTR 11,20 11 行 99 列 VT100 大写 数字 


图 2-34 ”验证 免 密 登录 


从 图 2-34 可 以 看 出 ,在 hadoop01 主机 上 生成 的 公 钥 复制 到 了 hadoop02 主机 上 并 自动 
重 命名 为 authorized_keys。 当 在 hadoop01 主机 上 输入 “ssh hadoop02” 指 令 访问 hadoop02 
主机 时 就 不 再 需要 输入 密码 了 。 

需要 说 明 的 是 ,上 述 步骤 只 是 演示 了 在 主机 名 为 hadoop01 的 机 器 上 生成 秘 钥 文件 ,并 
将 公 钥 复制 到 hadoop02 主机 上 ,实现 了 hadoop01 到 hadoop02 的 单 向 免 密 登录 。 本 教材 后 
续 将 使 用 前 面 安 装 的 主机 名 为 hadoop01、hadoop02 和 hadoop03 主机 进行 Hadoop 集群 搭 
建 ,因此 ,还 需要 在 所 有 机 器 上 进行 上 述 操作 。 


2.2 Hadoop 集群 搭建 


在 学 习 和 个 人 开发 测试 阶段 ,可 以 在 虚拟 机 上 安装 多 台 Linux 系统 来 搭建 Hadoop 集 
群 ,前 面 已 经 学 习 了 虚拟 机 的 安装 、 网 络 配 置 以 及 SSH 服务 配置 ,减少 了 后 续集 群 搭建 与 使 
用 过 程 中 不 必要 的 麻烦 ,下 面 就 对 Hadoop 集群 搭建 进行 详细 讲解 。 


2.2.1 Hadoop 集群 部 署 模式 


Hadoop 集群 的 部 署 方式 分 为 3 种 ,分 别 是 独立 模式 (Standalone mode)、 伪 分 布 式 模式 
(Pseudo-Distributed mode) 完全 分 布 式 模式 (Cluster mode) ,具体 介绍 如 下 。 
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(1) 独立 模式 : 又 称 为 单机 模式 ,在 该 模式 下 ,无 须 运 行 任何 守护 进程 ,所 有 的 程序 都 
在 单个 JVM 上 执行 。 独 立 模 式 下 调试 Hadoop 集群 的 MapReduce 程序 非常 方便 ,所 以 一 
般 情 况 下 ,该 模式 在 学 习 或 者 开发 阶段 调试 使 用 。 

(2) 伪 分 布 式 模式 : Hadoop 程序 的 守护 进程 运行 在 一 台 主 机 节点 上 ,通常 使 用 伪 分 布 
式 模式 来 调试 Hadoop 分 布 式 程序 的 代码 ,以 及 程序 执行 是 否 正确 , 伪 分 布 式 模式 是 完全 分 
布 式 模式 的 一 个 特例 。 

(3) 完全 分 布 式 模式 : Hadoop 的 守护 进程 分 别 运行 在 由 多 个 主机 搭建 的 集群 上 ,不同 
节点 担任 不 同 的 角色 ,在 实际 工作 应 用 开发 中 ,通常 使 用 该 模式 构建 企业 级 Hadoop 系统 。 

在 Hadoop 环境 中 ,所 有 服务 器 节点 仅 划分 为 两 种 角色 ,分 别 是 master( 主 节点 ,1 个 ) 
和 slave( 从 节点 ,多 个 )。 因 此 , 伪 分 布 模式 是 集群 模式 的 特例 ,只 是 将 主 节点 和 从 节点 合 二 
为 一 黑 了 。 

接 下 来 ,本 书 将 以 前 面 安装 的 3 台 虚 拟 机 为 例 ,阐述 完全 分 布 模式 Hadoop 集群 的 安装 
与 配置 方法 ,具体 集群 规划 如 图 2-35 所 示 。 


交换 机 


En 

-一 2 
sa 
二 


ip:192.168.121.134 ip:192.168.121.135 ip:192.168.121.136 
gateway:192.168.121.2 gateway:192.168.121.2 gateway:192.168.121.2 
netmask:255.255.255.0 netmask:255.255.255.0 netmask:255.255.255.0 


图 2-35 Hadoop 集群 规划 


从 图 2-35 可 以 看 出 ,当前 规划 的 Hadoop 集群 包含 一 台 master 节点 和 两 台 slave 节点 。 
这 里 ,将 前 面 安 装 的 Hadoop01 作为 master 节点 ,Hadoop02 和 Hadoop03 作为 slave 节点 。 


2.2.2 ”JDK 安装 


由 于 Hadoop 是 由 Java 语言 开发 的 ,Hadoop 集群 的 使 用 依赖 于 Java 环境 ,因此 在 安装 
Hadoop 集群 前 ,需要 先 安装 并 配置 好 JDK 。 

接 下 来 ,就 在 前 面 规划 的 Hadoop 集群 主 节点 hadoop01 机 器 上 分 步骤 演示 如 何 安 装 和 
配置 JDK ,具体 如 下 。 

(1) 下 载 JDK。 

访问 https://www. oracle. com/technetwork/java/javase/downloads/index. html 下 
载 Linux 系统 下 的 JDK 安装 包 。 

注 : 本 书 会 提供 和 使 用 jdk-8u161-linux-x64. tar. gz 安装 包 。 

(2) 安装 JDK。 

下 载 完 JDK 安装 包 后 . 先 将 安装 文件 通过 SecureCRT 工具 客户 端的 rz 命令 (可 以 通过 
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yum install lrzsz -y 指令 安装 ) 上 传 到 hadoop01 主机 的 /export/software/ 目 录 下 。 接 着 ,将 
安装 包 解 压 到 /export/servers/ 目 录 , 具 体 指令 如 下 。 


$ tar -zxvfjdke 8u161- linux— x64.tar.gz -C /esport/servers/ 


执行 完 上 述 指令 ,解压 完 JDK 安装 包 后 ,进入 到 /export/servers/ 目 录 , 如 果 觉 得 解压 
后 的 文件 名 过 长 ,可 以 对 文件 进行 重 命名 ,具体 指令 如 下 。 


$ mw jad.8.0 16 jak 


(3) 配置 JDK 环境 变量 。 
安装 完 JDK 后 ,还 需要 配置 JDK 环境 变量 。 使 用 “vi /etc/profile” 指 令 打开 profile 文 
件 , 在 文件 底部 添加 如 下 内 容 即 可 。 


+ 配置 OK 系统 环境 变量 


export CLASSPATH= .:$ JAVA_HME/1ib/dt..jar:$ JAVA_ HME/lib/tools.jar 


在 /etc/profile 文件 中 配置 完 上 述 JDK 环境 变量 后 (注意 JDK 路 径 ) ,保存 退出 即 可 。 
然后 ,还 需要 执行 “source /etc/profile” 指 令 使 配置 文件 生效 。 

(4) JDK 环境 验证 。 

在 完成 JDK 的 安装 和 配置 后 ,为 了 检测 安装 效果 ,可 以 输入 如 下 指令 进行 验证 。 


$ java - versin 


执行 上 述 指 令 后 ,如 果 出 现 如 图 2-36 所 示 效 果 就 说 明 JDK 安装 和 配置 成 功 。 


文件 (编辑 (E) ”查看 (V) 迁 项 (0) 传 绽 () 脚本 (S) 工具 (L) 帮助 (H) 
测 习 加 局 交 | 名 区 的 | 口号 马 Ea CE 


1 Servers]# s i 
| root@hadoopol serversls java 2 
java version “1.8.0_161” 
Java(™) SE Runtime Environment (build 1.8.0_161-b12) 
中 lava Hotspot(T™) 64-Bit Server WM (build 25.161-b12, mixed mode) 
中 [roorehadoop01 servers]# 


ssh2: AES-256-CTR 6, 26 10 行 ,76 列 VT100 大 写 数字 | 


图 2-36 ”JDK 环境 验证 


2.2.3 ”Hadoop 安装 


Hadoop 是 Apache 基金 会 面向 全 球 开源 的 产品 之 一 ,任何 用 户 都 可 以 从 Apache 
Hadoop 官网 https://archive. apache. org/dist/hadoop/common/ 下 载 使 用 。 本 书 将 以 编 
写 时 较为 稳定 的 Hadoop2. 7.4 版 本 为 例 , 详 细 讲解 Hadoop 的 安装 。 
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先 将 下 载 的 hadoop-2. 7. 4. tar. gz 安装 包 上 传 到 主 节点 hadoop01 的 /export/software/ 
目录 下 ,然后 将 文件 解压 到 /export/servers/ 目 录 , 具 体 指令 如 下 。 

S tar - zxvf hadoop- 2.7.4.tar.gz —C /esport/servers/ 


执行 完 上 述 指 令 后 ,同样 通过 “vi /etc/profile” 指 令 打 开 profile 文件 ,在 文件 底部 进 一 
步 添 加 如 下 内 容 配 置 Hadoop 环境 变量 。 


# 配 置 Badoop 系 统 环境 变量 
export HADOOP HME= /export/servers/hadoop- 2.7.4 
export PATH= S FAITH:§$ FADOOP HME/bin:$ EADOOP HOMEysbin 


在 /etc/profile 文件 中 配置 完 上 述 Hadoop 环境 变量 后 (注意 HADOOP_HOME 路 
径 ) ,保存 退出 即 可 。 然 后 ,还 需要 执行 “source /etc/profile” 指 令 使 配置 文件 生效 。 

安装 完 Hadoop 并 配置 好 环境 变量 后 ,可 以 在 当前 主机 任意 目录 下 查看 安装 的 Hadoop 
版 本 号 ,具体 指令 如 下 。 


$ hadoop version 


执行 完 上 述 指令 后 ,效果 如 图 2-37 所 示 。 


i ee eae net 


Hadoop 2.7.4 
Subver sion Unknown -r Unknown 
ompiled root on 2017-08-23T13:31Z 
Comp11ed wyrh proeoc 2 50 
From Source with checksum 50b0468318b4cegbd24dc467b7cel148 
Tis SPsand wes Sun Using /export/servers/hadoop-2.7.4/share/hadoop/comon/hadoop-common-2.7.4. jar 
root@hadool 


ssh2: AES-256-CTR 。 8，20 10 行 , 99 列 VT100 大 本 数字 


图 2-37 Hadoop 版 本 号 


从 图 2-37 可 以 看 出 ,当前 Hadoop 版 本 就 是 指定 的 2.7.4, 说 明 Hadoop 安装 成 功 。 
接 下 来 ,可 以 在 Hadoop 解压 目录 下 通过 由 指令 查看 Hadoop 目录 结构 ,如 图 2-38 所 示 。 


文件 (有 编 人 (E) 查 看 V) 运 项 (0) 传 给) 及 本 (S) 工具 (帮助 (H) 
淹 习 器 习 交 忆 电 的 EE 村 外 9 全 | 画 旧 


| EE 


矢量 140 
4096 8 月 23 2017 bin 


rea To 7 4 


ssh2: AES-256-CTR 14, 31 15 行 , 98 列 VT100 


图 2-38 Hadoop 安装 目录 结构 
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从 图 2-38 可 以 看 出 ,Hadoop 安装 目录 包括 有 bin ,etc include ,lib ,libexec sbin share 
和 src 共 8 个 目录 以 及 其 他 一 些 文件 ,下 面 简单 介绍 下 各 目录 内 容 及 作用 。 

。 bin: 存放 操作 Hadoop 相关 服务 (HDFS、YARN) 的 脚本 ,但 是 通常 使 用 sbin 目录 

下 的 脚本 。 

。 etc: 存放 Hadoop 配置 文件 ,主要 包含 core-site. xml、 hdfs-site. xml、 mapred-site 
. xml 等 从 Hadoop1.0 继承 而 来 的 配置 文件 和 yarn-site. xml 等 Hadoop2. 0 新 增 的 
配置 文件 。 
include: 对 外 提供 的 编程 库 头 文件 (具体 动态 库 和 静态 库 在 lib 目录 中 ) ,这些 头 文 
件 均 是 用 C++ 定义 的 ,通常 用 于 C++ 程序 访问 HDFS 或 者 编写 MapReduce 程序 。 
。lib: 该 目录 包含 了 Hadoop 对 外 提供 的 编程 动态 库 和 静态 库 ,与 include 目录 中 的 头 
文件 结合 使 用 。 
libexec: 各 个 服务 对 用 的 shell 配置 文件 所 在 的 目录 ,可 用 于 配置 日 志 输出 、 启 动 参 
数 ( 比 如 JVM 参数 ) 等 基本 信息 。 
。 sbin: 该 目录 存放 Hadoop 管理 脚本 ,主要 包含 HDFS 和 YARN 中 各 类 服务 的 启 

动 /关闭 脚本 。 

。 share: Hadoop 各 个 模块 编译 后 的 jar 包 所 在 的 目录 。 
。 src: Hadoop 的 源码 包 。 


2.2.4 Hadoop 集群 配置 


上 一 节 仅 仅 进行 了 单机 上 的 Hadoop 安装 ,为 了 在 多 台 机 器 上 进行 Hadoop 集群 搭建 
和 使 用 ,还 需要 对 相关 配置 文件 进行 修改 ,来 保证 集群 服务 协调 运行 。 

Hadoop 默认 提供 了 两 种 配置 文件 : 一 种 是 只 读 的 默认 配置 文件 ,包括 core-default 
.xml\hdfs-default. xml、mapred-default. xml 和 yarn-default. xml, 这 些 文件 包含 了 Hadoop 
系统 各 种 默认 配置 参数 ; 另 一 种 是 Hadoop 集群 自 定义 配置 时 编辑 的 配置 文件 (这 些 文件 多 
数 没有 任何 配置 内 容 , 都 存在 于 Hadoop 解压 包 下 的 etc/hadoop/ 目 录 中 ), 包 括 core-site 
. xml\hdfs-site. xml、mapred-site. xml 和 yarn-site. xml 等 .可 以 根据 需要 在 这 些 文件 中 对 
上 一 种 默认 配置 文件 中 的 参数 进行 修改 ,Hadoop 会 优先 选择 这 些 配置 文件 中 的 参数 。 

接 下 来 , 先 通过 表 2-1 来 对 Hadoop 集群 搭建 可 能 涉及 的 主要 配置 文件 及 功能 进行 描述 。 


表 2-1 Hadoop 主要 配置 文件 


配置 文件 功能 描述 
hadoop-env. sh 配置 Hadoop 运行 所 需 的 环境 变量 
yarn-env. sh 配置 YARN 运行 所 需 的 环境 变量 
core-site. xml Hadoop 核心 全 局 配置 文件 ,可 在 其 他 配置 文件 中 引用 该 文件 
hdfs-site. xml HDFS 配置 文件 ,继承 core-site. xml 配置 文件 
mapred-site. xml MapReduce 配置 文件 ,继承 core-site. xml 配置 文件 
yarn-site. xml YARN 配置 文件 ,继承 core-site. xml 配置 文件 


在 表 2-1 中 ,前 两 个 配置 文件 都 是 用 来 指定 Hadoop 和 YARN 所 需 运 行 环境 ,hadoop- 
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env. sh 用 来 保证 Hadoop 系统 能 够 正常 执行 HDFS 的 守护 进程 NameNode、Secondary 
NameNode 和 DataNode; 而 yarn-env. sh 用 来 保证 YARN 的 守护 进程 ResourceManager 和 
NodeManager 能 正常 启动 。 其 他 4 个 配置 文件 都 是 用 来 设置 集群 运行 参数 的 ,在 这 些 配 置 
文件 中 可 以 使 用 Hadoop 默认 配置 文件 中 的 参数 进行 配置 来 优化 Hadoop 集群 ,从 而 使 集 
群 更 加 稳定 高 效 。 

Hadoop 提供 的 默认 配置 文件 core-default. xml、hdfs-default. xml、mapred-default. xml 
和 yarn-default. xml 中 的 参数 非常 之 多 ,这 里 不 便 一 一 展示 说 明 。 读 者 在 具体 使 用 时 可 以 
通过 访问 Hadoop 官方 文档 http://hadoop. apache. org/docs/stable/index. html, 进 入 到 文 
档 最 底部 的 Configuration 部 分 进行 学 习 和 查看 。 

接 下 来 ,就 以 2.2.1 节 中 介绍 Hadoop 集群 规划 图 为 例 详 细 讲 解 Hadoop 集群 配置 , 具 
体 步 骤 如 下 。 


1. 配置 Hadoop 集群 主 节 点 


(1) 修改 hadoop-env. sh 文件 。 
先进 入 到 主 节点 hadoop01 解压 包 下 的 etc/hadoop/ 目 录 , 使 用 “vi hadoop-env. sh” 指 令 打 
开 其 中 的 hadoop-env. sh 文件 ,找到 JAVA _HOME 参数 位 置 ,进入 如 下 修改 (注意 JDK 路 径 ) 。 


Export. JAVA_ HME= /export/servers/jdk 


上 述 配 置 文件 中 设置 的 是 Hadoop 运行 时 需要 的 JDK 环境 变量 ,目的 是 让 Hadoop 启 
动 时 能 够 执行 守护 进程 。 

(2) 修改 core-site. xml 文件 。 

该 文件 是 Hadoop 的 核心 配置 文件 ,其 目的 是 配置 HDFS 地 址 、 端 口号 ,以 及 临时 文件 
目录 。 参 考 上 一 步 ,打开 该 配置 文件 ,添加 如 下 配置 内 容 。 


<configuraticn> 
< 上 -用 于 设置 Hadbop 的 文件 系统 ,由 URI 指 定 --> 
<property> 
< nane> £5.defaultFs< /name> 
< 上 -- 用 于 指定 namenode 地 址 在 hadbcp0l 机 器 上 --> 
< value> hdfs;//hadbop0l;9000< /valne> 
< property> 
< 上 -配置 Edbop 的 临时 目录 ,默认 /bmp/hasbop-$ {user.nane} -一 > 


在 上 述 核心 配置 文件 中 ,配置 了 HDFS 的 主 进程 NameNode 运行 主机 (也 就 是 此 次 
Hadoop 集群 的 主 节点 位 置 ) .同时 配置 了 Hadoop 运行 时 生成 数据 的 临时 目录 。 

(3) 修改 hdfs-site. xml 文件 。 

该 文件 用 于 设置 HDFS 的 NameNode 和 DataNode 两 大 进程 。 打 开 该 配置 文件 ,添加 
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如 下 配置 内 容 。 


在 上 述 配 置 文件 中 ,配置 了 HDFS 数据 块 的 副本 数量 (默认 值 就 为 3, 此 处 可 以 省 略 )， 
并 根据 需要 设置 了 Secondary NameNode 所 在 服务 的 HTTP 协议 地 址 。 

(4) 修改 mapred-site. xml 文件 。 

该 文件 是 MapReduce 的 核心 配置 文件 ,用 于 指定 MapReduce 运行 时 框架 。 在 etc/ 
hadoop/ 目 录 中 默认 没有 该 文件 ,需要 先 通过 “cp mapred-site. xml. template mapred-site. 
xml” 命 令 将 文件 复制 并 重 命名 为 “mapred-site. xml”。 接 着 ,打开 mapred-site. xml 文件 进 
行 修改 ,添加 如 下 配置 内 容 。 


在 上 述 配 置 文件 中 ,就 是 指定 了 Hadoop 的 MapReduce 运行 框架 为 YARN。 

(5) 修改 yarn-site. xml 文件 。 

本 文件 是 YARN 框架 的 核心 配置 文件 ,需要 指定 YARN 集群 的 管理 者 。 打 开 该 配置 
文件 ,添加 如 下 配置 内 容 。 
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在 上 述 配置 文件 中 ,配置 了 YARN 的 主 进程 ResourceManager 运行 主机 为 hadoop01， 
同时 配置 了 NodeManager 运行 时 的 附属 服务 ,需要 配置 为 mapreduce_shuffle 才能 正常 运 
行 MapReduce 默认 程序 。 

(6) 修改 slaves 文件 。 

该 文件 用 于 记录 Hadoop 集群 所 有 从 节点 (HDFS 的 DataNode 和 YARN 的 
NodeManager 所 在 主机 ) 的 主机 名 ,用 来 配合 一 键 启动 脚本 启动 集群 从 节点 (并 且 还 需要 保 
证 关联 节点 配置 了 SSH 免 密 登录 ) 。 打 开 该 配置 文件 , 先 删除 里 面 的 内 容 ( 默 认 localhost)， 
然后 配置 如 下 内 容 。 


hadoopol 
hadoopo2 
hadoop03 


在 上 述 配置 文件 中 ,配置 了 Hadoop 集群 所 有 从 节点 的 主机 名 为 hadoop01、hadoop02 
和 hadoop03( 这 是 因为 此 次 在 该 3 台 机 器 上 搭建 Hadoop 集群 ,同时 前 面 的 配置 文件 hdfs- 
site. xml 指定 了 HDFS 服务 副本 数量 为 3) 。 


2. 将 集群 主 节点 的 配置 文件 分 发 到 其 他 子 节点 


完成 Hadoop 集群 主 节点 hadoop01 的 配置 后 ,还 需要 将 系统 环境 配置 文件 ,JDK 安装 
目录 和 Hadoop 安装 目录 分 发 到 其 他 子 节点 hadoop02 和 hadoop03 上 ,具体 指令 如 下 。 


执行 完 上 述 所 有 指令 后 ,还 需要 在 其 他 子 节点 hadoop02、hadoop03 上 分 别 执行 “source 
/etc/profile” 指 令 立 即 刷 新 配置 文件 。 

至 此 ,整个 集群 所 有 节点 就 都 有 了 Hadoop 运行 所 需 的 环境 和 文件 , Hadoop 集群 也 就 
安装 配置 完成 。 在 下 节 中 ,将 对 此 次 安装 配置 的 集群 进行 效果 测试 。 


2.3 Hadoop 集群 测试 


2.3.1 格式 化 文件 系统 


通过 前 面 小 节 的 学 习 , 已 经 完成 了 Hadoop 集群 的 安装 和 配置 。 此 时 还 不 能 直接 启动 
集群 ,因为 在 初次 启动 HDFS 集群 时 ,必须 对 主 节点 进行 格式 化 处 理 , 具 体 指令 如 下 。 


$ hdfs namenode - fomret 
或 者 


$ hadoop namenode — fomet 
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执行 上 述 任意 一 条 指令 都 可 以 对 Hadoop 集群 进行 格式 化 。 执 行 格式 化 指令 后 ,必须 
出 现 有 “successfully formatted” 信 息 才 表示 格式 化 成 功 ,然后 就 可 以 正式 启动 集群 了 ; 否 
则 ,就 需要 查看 指令 是 否 正 确 , 或 者 之 前 Hadoop 集群 的 安装 和 配置 是 否 正确 。 

另外 需要 注意 的 是 ,上 述 格式 化 指令 只 需要 在 Hadoop 集群 初次 启动 前 执行 即 可 ,后 续 
重复 启动 就 不 再 需要 执行 格式 化 了 。 


2.3.2 启动 和 关闭 Hadoop 集群 


针对 Hadoop 集群 的 启动 ,需要 启动 内 部 包含 的 HDFS 集群 和 YARN 集群 两 个 集群 框 
架 。 启 动 方式 有 两 种 : 一 种 是 单 节点 逐个 启动 ; 另 一 种 是 使 用 脚本 一 键 启动 。 


1. 单 节点 逐个 启动 和 关闭 


单 节 点 逐个 启动 的 方式 ,需要 参照 以 下 方式 逐个 启动 Hadoop 集群 服务 需要 的 相关 服 
务 进程 ,具体 步骤 如 下 。 
(1) 在 主 节点 上 使 用 以 下 指令 启动 HDFS NameNode 进程 : 


$ hadoop- daemon.sh start namenode 
(2) 在 每 个 从 节点 上 使 用 以 下 指令 启动 HDFS DataNode 进程 : 

$ hadoop- daemon.sh start datanode 

(3) 在 主 节点 上 使 用 以 下 指令 启动 YARN ResourceManager 进程 ; 

$ Yarnr daemon.sh start rescurceranager 

(4) 在 每 个 从 节点 上 使 用 以 下 指令 启动 YARN nodemanager 进程 : 

$ yam- daemon.sh start nodemanager 

(5) 在 规划 节点 hadoop02 使 用 以 下 指令 启动 SecondaryNameNode 进程 : 
$ hadoop- daemon.sh start secondarynamenode 


上 述 介 绍 了 单 节 点 逐个 启动 和 关闭 Hadoop 集群 服务 的 方式 。 另 外 , 当 需 要 停止 相关 
服务 进程 时 ,只 需要 将 上 述 指 令 中 的 start 更 改 为 stop 即 可 。 


2. 脚本 一 键 启动 和 关闭 


启动 集群 还 可 以 使 用 脚本 一 键 启动 ,前 提 是 需要 配置 slaves 配置 文件 和 SSH 免 密 登 
录 ( 如 本 书 采用 hadoop01、hadoop02 和 hadoop03 三 台 节 点 ,为 了 在 任意 一 台 节 点 上 执行 
脚本 一 键 启动 Hadoop 服务 ,那么 就 必须 在 三 台 节点 包括 自身 节点 均 配 置 SSH 双向 免 密 
登录 ) 。 

使 用 脚本 一 键 启动 Hadoop 集群 .可 以 选择 在 主 节点 上 参考 如 下 方式 进行 启动 。 
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(1) 在 主 节 点 hadoop01 上 使 用 以 下 指令 启动 所 有 HDFS 服务 进程 : 


$ start- dfs.sh 


(2) 在 主 节点 hadoop01 上 使 用 以 下 指令 启动 所 有 YARN 服务 进程 : 


$ start- yam.sh 


上 述 使 用 脚本 一 键 启动 的 方式 , 先 启动 了 集群 所 有 的 HDFS 服务 进程 ,然后 再 启动 了 
所 有 的 YARN 服务 进程 ,这 就 完成 了 整个 Hadoop 集群 服务 的 启动 。 

另外 ,还 可 以 在 主 节点 hadoop01 上 执行 “start-all. sh” 指 令 ,直接 启动 整个 Hadoop 集 
群 服务 。 不 过 在 当前 版 本 已 经 不 再 推荐 使 用 该 指令 启动 Hadoop 集群 了 ,并 且 使 用 这 种 指 
令 启 动 服务 会 有 警告 提示 。 

同样 , 当 需 要 停止 相关 服务 进程 时 ,只 需要 将 上 述 指令 中 的 start 更 改 为 stop 即 可 ( 即 
使 用 stop-dfs. sh 和 stop-yarn. sh 来 关 停 服务 ) 。 


在 整个 Hadoop 集群 服务 启动 完成 之 后 ,可 以 在 各 自 机 器 上 通过 jps 指令 查看 各 节点 的 
服务 进程 启动 情况 ,效果 分 别 如 图 2-39、 图 2-40 和 图 2-41 所 示 。 


图 192.168.121.134 - SecureCRT Ee 


文件 (月 ”编辑 (E) ”查看 (V) ”选项 (O) ”传输 (D) 脚本 (S) 工具 (L) 帮助 (H) 
EETISEE TET YT rE 


Toot foop: adoop、 
3986 ResourceManager 
4089 NodeManager 


tocandond hadoop]# 


就 绪 ssh2: AES-256-CTR 7，25 10 行 , 80 列 VT100 。 六 写 数字 


图 2-39 ”hadoop01 集群 服务 进程 效果 图 


图 192.168.121.135 - SecureCRT [eel] 


文件 (月 编 岛 (E) 查看 (V) 选项 (0) 传 纺 (D 脚本 (S) 工具 (者 助 (H) 
机 居 铝 入 况 | 名 多 的 | 吧 号 包 | 加 做 919 | 国有 

| 192.168,121.134 1 192.168.121.135 
~]# Jps 


TooTEhadoop 
2 DataNode 
Ips 

2586 NodeMan: 


nager 
2509 SecondaryNameNode 
[root@hadoop02 ~]# 


ssh2: AES-256-CTR 6, 20 10 行 , 80 列 VT100 大 写 数字 
上 


图 2-40 hadoop02 集群 服务 进程 效果 图 


从 图 2-39、 图 2-40 和 图 2-41 可 以 看 出 ,hadoop01 节点 上 启动 了 NameNode、DataNode、 
ResourceManager 和 NodeManager 4 个 服务 进程 ; hadoop02 上 启动 了 DataNode、 
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fe YY 
图 192168.121136 - SecureCRT el x | 


文件 (月 ” 编 壤 (E) ”查看 (V) ”选项 (O) ”传输 () 脚本 (S) 工具 (D 帮助 (H) 
阅 居 同和 交 | 名 多 的 | 吧 瑟 日 | 加 热 919 | 国有 


1 192.168.121.136 


anager 
[roorehadoop03 ~]# 


就 绪 ssh2: AES-256-CTR 。 5，20 10 行 , 80 列 VT100 大写 数字 


图 2-41 hadoop03 集群 服务 进程 效果 图 


NodeManager 和 SecondaryNameNode 3 个 Hadoop 服务 进程 ; hadoop03 上 启动 了 
DataNode 和 NodeManager 两 个 服务 进程 。 这 与 之 前 规划 配置 的 各 节点 服务 一 致 ,说 明 
Hadoop 集群 启动 正常 。 

注意 : 读者 在 进行 前 面 Hadoop 集群 的 配置 和 启动 时 ,可 能 会 出 现 如 NodeManager 进 
程 无 法 启动 或 者 启动 后 自动 结束 的 情况 ,此 时 可 以 查看 Hadoop 解压 包 目 录 中 logs 下 的 日 
志文 件 , 主 要 是 因为 系统 内 存 和 资源 分 配 不 足 。 此 时 ,可 以 参考 如 下 方式 ,在 所 有 节点 的 
yarn-site. xml 配置 文件 中 添加 如 下 参数 进行 适当 调整 。 


<Property> 
< 上 -定义 NodsManager 上 要 提供 给 正在 运行 的 容器 的 全 部 可 用 资源 大 小 --> 
< name> yam.nodemanager.resouroe .menory— bx /name> 
<value> 2048< /value> 


< 上 -资源 管理 器 中 分 配给 每 个 容器 请 求 的 最 小 内 存 限制 --> 
<name> yam.scheduler.minimm- allocaticon- nx /name> 
<Valne> 2048< /valne> 


< 上 -NodeManager 可 以 分 配 的 CEU 核 数 --> 
< neme> yam.nodemanager .resource.qpu- voores< /name> 
<value> 1< NWalue> 

< /property> 


上 述 配 置 文件 中 , yarn. nodemanager。 resource. memory-mb 表示 该 节点 上 
NodeManager 可 使 用 的 物理 内 存 总 量 , 上 默认 是 8192MB, 如 果 节 点 内 存 资 源 不 够 8GB, 则 需 
要 适当 调整 ;yarn. scheduler. minimum-allocation-mb 表示 每 个 容器 可 申请 的 最 少 物理 内 存 
量 , 默 认 是 1024MB; yarn. nodemanager. resource. cpu-vcores 表示 NodeManager 总 的 可 用 
虚拟 CPU 核 数 。 


2.3.3 ”通过 Ul 查看 Hadoop 运行 状态 


Hadoop 集群 正常 启动 后 , 它 默 认 开 放 了 50070 和 8088 两 个 端口 ,分 别 用 于 监控 HDFS 
集群 和 YARN 集群 。 通 过 UI 可 以 方便 地 进行 集群 的 管理 和 查看 ,只 需要 在 本 地 操作 系统 
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的 浏览 器 输入 集群 服务 的 IP 和 对 应 的 端口 号 即 可 访问 。 

为 了 后 续 方 便 查看 ,可 以 在 本 地 宿主 机 的 hosts 文件 (Windows7 操作 系统 下 路 径 为 C: 
\Windows\System32\drivers\etc) 中 添加 集群 服务 的 IP 映射 ,具体 内 容 示 例如 下 (读者 需 
要 根据 自身 集群 构建 进行 相应 的 配置 ) 。 


192.168.121.134 hadpop0l 
192.168.121.135 haqoop02 
192.168.121.136 haqpop03 


想 要 通过 外 部 UI 访 问 虚 拟 机 服务 ,还 需要 对 外 开放 配置 Hadoop 集群 服务 端口 号 。 为 
了 后 续 学 习 方 便 ,这 里 就 直接 将 所 有 集群 节点 防火 墙 进行 关闭 即 可 ,具体 操作 如 下 。 
首先 ,在 所 有 集群 节点 上 执行 如 下 指令 关闭 防火 墙 : 


$ service iptables stop 
接着 ,在 所 有 集群 节点 上 执行 如 下 指令 关闭 防火 墙 开 机 启动 : 
$ chkoonfig iptables off 


执行 完 上 述 所 有 操作 后 ,再 通过 宿主 机 的 浏览 器 分 别 访问 http://hadoop01:50070( 集 
群 服务 IP 十 端口 号 ) 和 http://hadoop01:8088 查看 HDFS 和 YARN 集群 状态 ,效果 分 别 
如 图 2-42 和 图 2-43 所 示 。 


Started: Thu Aug 09 21:54:05 CST 2018 

Version: 2.74, Unknown 

Compiled: 2017-08-23T13:317 by root from Unknown 
Cluster ID: CID-69431118-f80c-4191-90ca-d84f7b511401 
Block Pool ID: BP-1251326271-192.168.121.134-1523694850025 
Summary 


Security is off. 
Safemode is off. 

253 flles and directories, 165 blocks = 418 total filesystem object(s). 

Heap Memory used 26.19 MB of 61.19 MB Heap Memory. Max Heap Memory is 965.69 MB. 


图 2-42 HDFS 的 UI 


从 图 2-42 和 图 2-43 可 以 看 出 ,通过 UI 可 以 正常 访问 Hadoop 集群 的 HDFS 界面 和 
YARN 界面 ,并 且 页 面 显示 正常 ,同时 通过 UI 可 以 更 方便 地 进行 集群 状态 管理 和 查看 。 
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Applicatons 


[ET la | 六 自 娘 全 玫 国 昌 三 


All Applications 


Decommissioned | 
Nodes 
9 


Vcores | VCores Active 
Used Total Reserved Nodes 
2 0 3 


| Minimum Allocation 
<memanr1024 vCoresl> 


ey rr ee ee 
a 


图 2-43 YARN 的 UI 


2.4 Hadoop 集群 初 体验 


前 面 完成 了 Hadoop 集群 安装 和 测试 ,显示 构建 的 Hadoop 集群 能 够 正常 运行 。 接 下 


来 ,就 通过 Hadoop 经 典 案例 一 一 单词 统计 ,来 演示 Hadoop 集群 的 简单 使 用 。 


(1) 打开 HDFS 的 UI, 选 择 【Utilities〗>【Browse the file system】 查 看 分 布 式 文件 系统 


里 的 数据 文件 ,可 以 看 到 新 建 的 HDFS 上 没有 任何 数据 文件 ,如 图 2-44 所 示 。 


/ 食 白 和合 4 四 9 


B € @ hadoopO1:50070/explorer htnl#/ 


Hadoop 
Browse the file System 
Logs 


Browse Directory 


Gol 


Permission Owner Group Size Last Modified Replication BlockSize 。 Name 
hadoopO1:50070/explorer.htmi# 


图 2-44 查看 HDFS 的 数据 文件 


(2) 先 在 集群 主 节点 hadoop01 上 的 /export/data/ 目 录 下 ,使 用 “vi word. txt” 指 令 新 建 


一 个 word. txt 文本 文件 ,并 编写 一 些 单词 内 容 , 如 文件 2-1 所 示 。 


文件 2-1 word. txt 
hello itcast 
hello itheima 


hello hadoop 


接着 ,在 HDFS 上 创建 /wordcount/input 目录 ,并 将 word. txt 文件 上 传 至 该 目录 下 ， 


具体 指令 如 下 所 示 : 


和 
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$ hadoop fs -mdir -p /ordcount/input 
$ hadoop £5 -put /export/data/word.txt /wordoomnt/irput 


上 述 指令 是 Hadoop 提供 的 进行 文件 系统 操作 的 HDFS Shell 相关 指令 ,此 处 不 必 深 究 
具体 使 用 ,在 下 一 章 会 进行 详细 说 明 。 执 行 完 上 述 指令 后 ,再 次 查看 HDFS 的 UI, 会 发 现 
/wordcount/input 目录 创建 成 功 并 上 传 了 指定 的 word. txt 文件 ,如 图 2-45 所 示 。 


DY Browing HDFS 


/explorer htmit /worde 


Browse Directory 


wordcounUinput 


Permission Group Size LastModified 


supergroup 408 2018/9/8 下 于 61127 word bd 


Hadoop, 2017 


图 2-45 HDFS 界面 


(3) 进入 Hadoop 解压 包 中 的 share/hadoop/mapreduce/ 目 录 下 ,使 用 1 指令 查看 文件 
夹 内 容 ,如 图 2-46 所 示 。 
图 192168.121.134 - SecureCRT [ey 


文件 (F) ” 蝙 辑 (E) ”查看 (V) ”选项 (O) ” 传 缩 (T) 脚本 (S) 工具 (L) ”帮助 (H) 
油 习 回忆 冯 | 名 总 的 | 吗 吕 乌 | 辐 消 和 昌国 目 


| 192.168,121.134 


root root 543822 8 月 23 2017 hadoop-mapreduce-client-app-2.7.4.jar 
root root 776851 8 月 
root root 1558189 8 月 
root root 191892 8 月 
root root ”27829 8 月 
root root 62956 8 月 
root root 1557010 8 月 
root root “72052 8 月 
root root 295691 8 月 
root root ”4096 8 月 
root root 4096 8 月 23 2017 lib-examples 
root root 4096 8 月 23 2017 sources 
Wotan mapreduce]# 国 


NNNPPPPPPPPP 


1 国 


就 绪 ssh2: AES-256-CTR 16, 28 17 行 , 94 列 VT100 大写 数字 


图 2-46 官方 MapReduce 示例 程序 


从 图 2-46 可 以 看 出 ,在 该 文件 夹 下 自 带 了 很 多 Hadoop 的 MapReduce 示例 程序 。 其 
中 ,hadoop-mapreduce-examples-2.7. 4.jar 包 中 包含 了 计算 单词 个 数 .计算 Pi 值 等 功能 。 

因此 ,这 里 可 以 直接 使 用 hadoop-mapreduce-examples-2. 7. 4. jar 示例 包 , 对 HDFS 上 
的 word. txt 文件 进行 单词 统计 .来 进行 此 次 案例 的 演示 ,在 jar 包 位 置 执行 如 下 指令 。 
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§$ haqpop jar hadbop-meprednce examples- 2.7.4.jar wordcount \ 
wordcount/input /wordcount/output 


上 述 指令 中 ,hadoop jar hadoop-mapreduce-examples-2. 7. 4. jar 表示 执行 一 个 Hadoop 
的 jar 包 程序 ;wordcount 表示 执行 jar 包 程 序 中 的 单词 统计 功能 ;/wordcount/input 表示 进 
行 单词 统计 的 HDFS 文件 路 径 ;/wordcount/output 表示 进行 单词 统计 后 的 输出 HDFS 结 
果 路 径 。 

执行 完 上 述 指令 后 ,示例 包 中 的 MapReduce 程序 开始 运行 ,此 时 可 以 通过 YARN 集群 
的 UI 查看 运行 状态 ,如 图 2-47 所 示 。 


状态 信息 以 及 其 他 相关 参数 。 
(4) 在 单词 统计 的 示例 程序 执行 成 功 后 ,再 次 刷新 并 查看 HDFS 的 UI, 如 图 2-48 
所 示 。 


Browse Directory 


erie ou 


图 2-48 MapReduce 程序 执行 结果 


从 图 2-48 可 以 看 出 ,MapReduce 程序 执行 成 功 后 ,在 HDFS 上 自动 创建 了 指定 的 结果 目 
录 /wordcount/output, 并 且 输 出 了 _SUCCESS 和 part-r-00000 结果 文件 。 其 中 _SUCCESS 文件 
用 于 表示 此 次 任务 成 功 执行 的 标识 ,而 part-r-00000 表示 单词 统计 的 结果 。 

接着 ,就 可 以 单 击 下 载 图 2-48 中 的 part-r-00000 结果 文件 到 本 地 操作 系统 ,并 使 用 文 
本 工具 (EditPlus、Nodepad++ 、 记 事 本 等 ) 打 开 该 文件 ,如 图 2-49 所 示 。 

从 图 2-49 可 以 看 出 ,MapReduce 示例 程序 成 功 统计 出 了 /wordcount/input/word. txt 
文本 中 的 单词 数量 ,并 进行 了 结果 输出 。 
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[局 rarrooooo lcsersadminDownlosd -au ETEEES] 
.7 文件 W) 编 铝 (8) “号 示 00 搜索 (S) 文档 (D) 方案 昌 ” 工 具 (G) 浏 蜂 器 () Emmet 窗口 (9 ”帮助 -lex 
Ae eee 
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1 hadoop 1 
2 hello 3 
3 itcast 1 
4 itheima 1 


图 2-49 MapReduce 单词 统计 结果 文件 


在 本 节 使 用 Hadoop 提供 的 示例 程序 演示 了 单词 统计 案例 的 实现 ,在 实际 应 用 开发 中 ， 
开发 者 需要 根据 需求 自行 编写 各 种 MapReduce 程序 ,打包 上 传 至 服务 器 ,然后 执行 此 程序 。 
关于 Hadoop 系统 的 工作 原理 以 及 MapReduce 程序 编写 方式 ,将 在 后 面 的 章节 进行 详细 
讲解 。 

注意 : 在 执行 MapReduce 程序 时 ,可 能 会 出 现 类 似 “WARN hdfs. DFSClient: Caught 
exception” 的 警告 提示 信息 ,这 是 由 于 Hadoop 版 本 以 及 系统 资源 配置 的 原因 ,读者 可 以 不 
必 在 意 , 它 并 不 会 影响 程序 的 正常 执行 。 


2.5 本 章 小 结 


本 章 主要 针对 Hadoop 集群 的 构建 进行 了 讲解 。 先 对 集群 搭建 的 安装 准备 ,例如 虚拟 
机 安装 克隆 、 网 络 配置 和 SSH 服务 配置 进行 了 讲解 ;然后 ,使 用 集群 模式 对 Hadoop 搭建 进 
行 了 详细 的 讲解 ,这 是 本 章 的 重点 内 容 , 务 必 亲 手 实践 并 牢记 ,在 进行 配置 文件 修改 过 程 中 
一 定 要 认真 细致 ;最 后 ,对 搭建 好 的 Hadoop 集群 进行 了 测试 ,并 通过 一 个 单词 统计 的 案例 
演示 了 Hadoop 集群 的 初次 使 用 。 


2.6 课 后 习题 
一 、 填 空 是 


. Hadoop 集群 部 署 方 式 分 别 是 和 

.加 载 环境 变量 配置 文件 需要 使 用 命令 。 

. 格式 化 HDFS 集群 命令 是 家 

. 脚本 一 键 启动 Hadoop 集群 服务 命令 是 

. Hadoop 默认 开设 HDFS 端口 号 和 监控 YARN 集群 端口 号 


an mo 性 


二 、 判 断 题 


1. Hadoop 是 Java 语言 开发 的 ,因此 在 搭建 Hadoop 集群 时 ,需要 为 集群 安装 JDK 环 
境 变量 。 
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2. 伪 分 布 式 模式 下 的 Hadoop 功能 与 完全 分 布 式 模式 下 的 Hadoop 功能 相同 。 


3. 启动 Hadoop 集群 服务 之 前 需要 格式 化 文件 系统 。 
4. Hadoop 存在 多 个 副本 , 且 默 认 备 份 数量 是 3。 
5. 配置 Hadoop 集群 只 需要 修改 core-site. xml 配置 文件 就 可 以 。 


三 、 选 择 题 


i i ph 


1. HDFS 默认 备份 数量 是 多 少 ? ( ) 
A. 0 下 六 fs 光 D3 
2. 下 列 描述 说 法 错误 的 是 ( $i 
A. SecureCRT 是 一 款 支 持 SSH 的 终端 仿真 程序 , 它 能 够 在 Windows 操作 系统 上 
远程 连接 Linux 服务 器 执行 操作 
B. Hadoop 是 一 个 用 于 处 理 大 数据 的 分 布 式 集群 架构 ,支持 在 GNU/Linux 系统 以 
及 Windows 系统 上 进行 安装 使 用 
C. VMware Workstation 是 一 款 虚拟 计算 机 的 软件 ,用 户 可 以 在 单一 的 桌面 上 同时 
操作 不 同 的 操作 系统 
D. SSH 是 一 个 软件 , 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 功能 的 软件 
3. 配置 Hadoop 集群 时 ,下 列 哪个 Hadoop 配置 文件 需要 进行 修改 ? (多 选 )( ) 


A. hadoop-env. sh B. profile 
C. core-site. xml D. ifcfg-eth0 
四 、 简 答题 


1. 简 述 SSH 协议 解决 的 问题 。 
2. 简 述 Hadoop 集群 部 署 方式 以 及 各 方式 使 用 场景 。 
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学 习 目 标 
。 了 解 HDFS 演变 。 
。 掌握 HDFS 特点 。 


。 掌握 HDFS 的 架构 和 原理 。 
。 掌握 HDFS 的 Shell 和 JavaApi 操作 。 


HDFS 是 Hadoop 体系 中 的 重要 组 成 部 分 ,主要 用 于 解决 海量 大 数据 文件 存储 的 问题 ， 
是 目前 应 用 最 广泛 的 分 布 式 文件 系统 。 接 下 来 ,本 章 将 从 HDFS 的 演变 开始 ,带领 大 家 逐 
步 学 习 HDFS 的 架构 .工作 原理 以 及 常见 操作 。 


3.1 HDFS 的 简介 


3.1.1 HDFS 的 演变 


HDFS 源 于 Google 在 2003 年 10 月 份 发 表 的 GFS(Google File System) 论 文 , 接 下 来 
从 传统 的 文件 系统 和 人手, 开始 学 习 分 布 式 文件 系统 ,以 及 


分 布 式 文件 系统 是 如 何 演变 而 来 。 
传统 的 文件 系统 对 海量 数据 的 处 理 方式 是 将 数据 广 | 


件 直接 存储 在 一 台 服 务 器 上 ,如 图 3-1 所 示 。 腿 半 

从 图 3-1 可 以 看 出 ,传统 的 文件 系统 在 存储 数据 时 ,会 。 图 3.1 传统 文件 系统 
遇 到 两 个 问题 ,具体 如 下 ， 

。 当 数据 量 越 来 越 大 时 ,会 遇 到 存储 瓶颈 ,就 需要 扩容 ; 

。 由 于 文件 过 大 ,上 传 和 下 载 都 非常 耗 时 。 

为 了 解决 传统 文件 系统 遇 到 的 存储 瓶颈 问题 ,首先 考虑 的 就 是 扩容 ,扩容 有 两 种 形式 ， 
一 种 是 纵向 扩容 , 即 增加 磁盘 和 内 存 ; 另 一 种 是 横向 扩容 , 即 增加 服务 器 数量 。 通 过 扩大 规 
模 达 到 分 布 式 存储 ,这 种 存储 形式 就 是 分 布 式 文件 存储 的 锥 形 ,如 图 3-2 所 示 。 


[| = = |= 


服务 器 B 服务 器 C 服务 器 D 
图 3-2 分 布 式 文件 系统 雏形 
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解决 了 分 布 式 文件 系统 的 存储 瓶颈 问题 之 后 ,还 需要 解决 文件 上 传 与 下 载 的 效率 问题 ， 
常规 的 解决 办 法 是 将 一 个 大 的 文件 切 分 成 多 个 数据 块 ,将 数据 块 以 并 行 的 方式 进行 存储 。 
这 里 以 30G 的 文本 文件 为 例 , 将 其 切 分 成 3 块 ,每 块 大 小 10G( 实 际 上 每 个 数据 块 都 很 小 ， 
只 有 100M 左右 ) ,将 其 存储 在 文件 系统 中 ,如 图 3-3 所 示 。 


FE blk- 0- 一- 二 10G blk- = 10G blk- 一 全 改 
30G 1.txt 


服务 器 B 服务 器 C 服务 器 D 
图 3-3 分 布 式 文件 系统 雏形 


从 图 3-3 可 以 看 出 ,原先 一 台 服 务 器 要 存储 30G 的 文件 ,此 时 每 台 服 务 器 只 需要 存储 
10G 的 数据 块 就 完成 了 工作 ,从 而 解决 了 上 传 下 载 的 效率 问题 。 但 是 文件 通过 数据 块 分 别 
存储 在 服务 器 集群 中 ,那么 如 何 获取 一 个 完整 的 文件 呢 ? 针对 这 个 问题 ,就 需要 再 考虑 增加 
一 台 服 务 器 ,专门 用 来 记录 文件 被 切割 后 的 数据 块 信息 以 及 数据 块 的 存储 位 置信 息 , 如 
图 3-4 所 示 。 


1.txt{blk-001,blk-002,blk-003}, 
{blk-001:B,blk-002:C,blk-003:D} 

Ee 
服务 器 A 


| 


10G blk-001 10G blk-002| 10G blk-003 
L9j 9 
30G 1.txt br 


服务 器 B 服务 器 C 服务 器 D 
图 3-4 HDFS 雏形 


从 图 3-4 可 以 看 出 ,文件 存储 系统 中 增加 了 一 台 服 务 器 A 用 于 管理 其 他 服务 器 ,服务 器 
A 记录 着 文件 被 切 分 成 多 少 个 数据 块 ,这 些 数 据 块 分 别 存储 在 哪 台 服务 器 中 , 当 客 户 端 访 
问 服务 器 A 请 求 下 载 数据 文件 时 ,就 能 够 通过 类 似 查 找 目 录 的 方式 查找 数据 了 。 

通过 前 面 的 操作 ,看 似 解决 了 所 有 问题 ,但 其 实 还 有 一 个 非常 关键 的 问题 需要 处 理 , 那 
就 是 当 存储 数据 块 的 服务 器 中 突然 有 一 台 机 器 宕 机 ,就 无 法 正常 的 获取 文件 了 ,这 个 问题 被 
称 为 单 点 故障 。 针 对 这 个 问题 ,可 以 采用 备份 的 机 制 解决 ,如 图 3-5 所 示 。 

从 图 3-5 可 以 看 出 ,每 个 服务 器 中 都 存储 两 个 数据 块 ,进行 备份 。 服 务 器 B 存储 blk- 
001 和 blk-002, 服 务 器 C 存储 blk-002 和 blk-003 ,服务器 D 存储 blk-001 和 blk-003。 当 服 
务 器 C 突然 宕 机 ,我 们 还 可 以 通过 服务 器 B 和 服务 器 D 查询 完整 的 数据 块 供 客户 端 访问 下 
载 。 这 就 形成 了 简单 的 HDFS。 

这 里 的 服务 器 A 被 称 为 NameNode, 它 维护 着 文件 系统 内 所 有 文件 和 目录 的 相关 信 
息 , 服 务 器 B.C.D 被 称 为 DataNode, 用 于 存储 数据 块 。 
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1txt{fblk-001,blk-002.blk-003}， 
fblk-001:B:D.blk-002:B:C.blk-003,C:D} 


服务 器 A 
10G blk-001 10G blk-002 10Gblk-003 
10G blk-002 gp 10G blk-003 10G blk-001 
后 可 -= -一 
和 上 
30G L.txt TE © © 
服务 器 B 服务 器 C 服务 器 D 
图 3-5 HDFS 


3.1.2 HDFS 的 基本 概念 


HDFS(Hadoop Distributed File System) 是 一 个 易于 扩展 的 分 布 式 文件 系统 ,运行 在 成 
百 上 千 台 低 成 本 的 机 器 上 。 它 与 现 有 的 分 布 式 文件 系统 有 许多 相似 之 处 ,都 是 用 来 存储 数 
据 的 系统 工具 ,而 区 别 在 于 HDFS 具有 高 度 容 错 能 力 , 旨 在 部 署 在 低 成 本 机 器 上 。HDFS 
提供 对 应 用 程序 数据 的 高 吞吐 量 访问 ,主要 用 于 对 海量 文件 信息 进行 存储 和 管理 ,也 就 是 解 
决 大 数据 文件 (如 TB 乃至 PB 级 ) 的 存储 问题 。 本 节 将 针对 HDFS 的 基本 概念 进行 详细 
讲解 。 


1. NameNode( 名 称 节 点 ) 


NameNode 是 HDFS 集群 的 主 服务 器 ,通常 称 为 名 称 节 点 或 者 主 节点 。 一旦 
NameNode 关闭 ,就 无 法 访问 Hadoop 集群 。NameNode 主要 以 元 数据 的 形式 进行 管理 和 
存储 ,用 于 维护 文件 系统 名 称 并 管理 客户 端 对 文件 的 访问 ;NameNode 记录 对 文件 系统 名 称 
空间 或 其 属性 的 任何 更 改 操作 ;HDFS 负责 整个 数据 集群 的 管理 ,并 且 在 配置 文件 中 可 以 设 
置 备份 数量 ,这些 信息 都 由 NameNode 存储 。 


2. DataNode( 数 据 节 点 ) 


DataNode 是 HDFS 集群 中 的 从 服务 器 ,通常 称 为 数据 节点 。 文 件 系统 存储 文件 的 方 
式 是 将 文件 切 分 成 多 个 数据 块 ,这 些 数据 块 实际 上 是 存储 在 DataNode 节点 中 的 ,因此 
DataNode 机 器 需要 配置 大 量 磁盘 空间 。 它 与 NameNode 保持 不 断 的 通信 ,DataNode 在 客 
户 端 或 者 NameNode 的 调度 下 ,存储 并 检索 数据 块 , 对 数据 块 进行 创建 .删除 等 操作 ,并且 
定期 向 NameNode 发 送 所 存储 的 数据 块 列表 ,每 当 DataNode 启动 时 , 它 将 负责 把 持 有 的 数 
据 块 列表 发 送 到 NameNode 机 器 中 。 


3. Block( 数 据 块 ) 


每 个 磁盘 都 有 默认 的 数据 块 大 小 ,这 是 磁盘 进行 数据 读 / 写 的 最 小 单位 ,HDFS 同样 也 
有 块 (block) 的 概念 , 它 是 抽象 的 块 ,而 非 整 个 文件 作为 存储 单元 ,在 Hadoop2. x 版 本 中 , 默 
认 大 小 是 128M, 且 备份 3 份 .每 个 块 尽 可 能 地 存储 于 不 同 的 DataNode 中 。 按 块 存储 的 好 
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处 主要 是 屏蔽 了 文件 的 大 小 (在 这 种 情况 下 ,可 以 将 一 个 文件 分 成 N 个 数据 块 ,存储 到 各 个 
磁盘 ,就 简化 了 存储 系统 的 设计 。 为 了 数据 的 安全 ,必须 要 进行 备份 ,而 数据 块 非常 适合 数 
据 的 备份 ) ,提供 数据 的 容错 性 和 可 用 性 。 


4. Rack( 机 架 ) 


Rack 是 用 来 存放 部 署 Hadoop 集群 服务 器 的 机 架 ,不同 机 架 之 间 的 节点 通过 交换 机 通 
信 ,HDFS 通过 机 架 感知 策略 ,使 NameNode 能 够 确定 每 个 DataNode 所 属 的 机 架 ID ,使 用 
副本 存放 策略 ,来 改进 数据 的 可 靠 性 、 可 用 性 和 网 络 带宽 的 利用 率 。 


5. Metadata( 元 数据 ) 


元 数据 从 类 型 上 可 分 为 三 种 信息 形式 ,一 是 维护 HDFS 中 文件 和 目录 的 信息 ,如 文件 
名 .目录 名 、 父 目录 信息 文件 大 小 、 创 建 时 间 、 修 改 时 间 等 ;二 是 记录 文件 内 容 , 存 储 相 关 信 
息 , 如 文件 分 块 情况 、 副 本 个 数 、 每 个 副本 所 在 的 DataNode 信息 等 ;三 是 用 来 记录 HDFS 中 
所 有 DataNode 的 信息 ,用 于 DataNode 管理 。 

小 提示 : 具体 文件 内 容 不 是 元 数据 ,元 数据 是 用 于 描述 和 组 织 具体 的 文件 内 容 , 如 果 没 
有 元 数据 ,具体 的 文件 内 容 将 变 得 没有 意义 。 元 数据 的 作用 十 分 重要 ,它们 的 可 用 性 直接 决 
定 了 HDFS 的 可 用 性 。 


3.1.3 ”HDFS 的 特点 


随 着 互联 网 数据 规模 的 不 断 增 大 ,对 文件 存储 系统 提出 了 更 高 的 要 求 ,需要 更 大 的 容 
量 、 更 好 的 性 能 以 及 安全 性 更 高 的 文件 存储 系统 ,与 传统 分 布 式 文件 系统 一 样 ,HDFS 也 是 
通过 计算 机 网 络 与 节点 相连 ,但 也 有 传统 分 布 式 文件 系统 的 优点 和 缺点 。 


1. 优点 


(1) 高 容错 。 

HDFS 可 以 由 成 百 上 千 台 服务 器 组 成 ,每 个 服务 器 存储 文件 系统 数据 的 一 部 分 。 
HDFS 中 的 副本 机 制 会 自动 把 数据 保存 多 个 副本 .DataNode 节点 周期 性 地 向 NameNode 
发 送 心 跳 信 和 号, 当 网 络 发 生 异 常 ,可 能 导致 DataNode 与 NameNode 失去 通信 ,NameNode 
和 DataNode 通过 心跳 检测 机 制 ,发 现 DataNode 宕 机 ,DataNode 中 副本 丢失 ,HDFS 则 会 
从 其 他 DataNode 上 面 的 副本 自动 恢复 ,所 以 HDFS 具有 高 的 容错 性 。 

(2) 流 式 数据 访问 。 

HDFS 的 数据 处 理 规模 比较 大 ,应 用 程序 一 次 需要 访问 大 量 的 数据 ,同时 这 些 应 用 程序 
一 般 都 是 批量 地 处 理 数 据 , 而 不 是 用 户 交互 式 处 理 , 所 以 应 用 程序 能 以 流 的 形式 访问 数据 
集 , 请 求 访问 整个 数据 集 要 比 访问 一 条 记录 更 加 高 效 。 

(3) 支持 超大 文件 。 

HDFS 具有 很 大 的 数据 集 , 旨 在 可 靠 的 大 型 集群 上 存储 超大 型 文件 (GB、TB、PB 级 别 
的 数据 ) , 它 将 每 个 文件 切 分 成 多 个 小 的 数据 块 进行 存储 ,除了 最 后 一 个 数据 块 之 外 的 所 有 
数据 块 大 小 都 相同 , 块 的 大 小 可 以 在 指定 的 配置 文件 中 进行 修改 ,在 Hadoop2. x 版 本 中 默 
认 大 小 是 128M。 
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(4) 高 数据 吞吐 量 。 

HDFS 采用 的 是 “一 次 写 人 ,多 次 读 取 ” 这 种 简单 的 数据 一 致 性 模型 ,在 HDFS 中 ,一 个 
文件 一 旦 经 过 创建 , 写 人 .关闭 后 ,一 旦 写 人 就 不 能 进行 修改 了 ,只 能 进行 追加 ,这 样 保证 了 
数据 的 一 致 性 ,也 有 利于 提高 吞吐 量 。 

(5) 可 构建 在 廉价 的 机 器 上 。 

Hadoop 的 设计 对 硬件 要 求 低 ,无 须 构建 在 昂贵 的 高 可 用 性 机 器 上 ,因为 在 HDFS 设计 
中 充分 考虑 到 了 数据 的 可 靠 性 、 安 全 性 和 高 可 用 性 。 


2. 缺点 


(1) 高 延迟 。 

HDFS 不 适用 于 低 延 迟 数据 访问 的 场景 ,例如 ,毫秒 级 实时 查询 。 

(2) 不 适合 小 文件 存 取 场 景 。 

对 于 Hadoop 系统 ,小 文件 通常 定义 为 远 小 于 HDFS 的 数据 块 大 小 (128MB) 的 文件 ， 
由 于 每 个 文件 都 会 产生 各 自 的 元 数据 , Hadoop 通过 NameNode 来 存储 这 些 信 息 , 若 小 文件 
过 多 ,容易 导致 NameNode 存储 出 现 瓶 颈 。 

(3) 不 适合 并 发 写 人 。 

HDFS 目前 不 支持 并 发 多 用 户 的 写 操作 , 写 操作 只 能 在 文件 末尾 追加 数据 。 


3.2 ”HDFS 的 架构 和 原理 


3.2.1 HDFS 存储 架构 


HDFS 是 一 个 分 布 式 的 文件 系统 , 相 比 普通 的 文件 系统 来 说 更 加 复杂 ,因此 在 学 习 
HDFS 的 操作 之 前 有 必要 先 来 学 习 一 下 HDFS 的 存储 架构 ,如 图 3-6 所 示 。 


HDFS Architecture 


Metadata(Name,replicas,…): 
/home/foo/data, 3. … 


Metadata ops _ w=| Namenode 


Block ops 


Read | DataNodes DataNodes 


国 国 国 加 
! 9 辆 宣 Blocks 


Rack 1 Rack 2 


Replication 


图 3-6 ”HDFS 存储 架构 图 


从 图 3-6 可 以 看 出 ,HDFS 采用 主 从 架构 (Master/Slave 架构 )。HDFS 集群 分 别 是 由 
一 个 NameNode 和 多 个 DataNode 组 成 。 其 中 ,NameNode 是 HDFS 集群 的 主 节点 ,负责 管 


第 3 章 HDFS 分 布 式 文件 系统 


理 文件 系统 的 命名 空间 以 及 客户 端 对 文件 的 访问 ;DataNode 是 集群 的 从 节点 ,负责 管理 它 
所 在 节点 上 的 数据 存储 。HDFS 中 的 NameNode 和 DataNode 两 种 角色 各 司 其 职 ,共同 协 
调 完 成 分 布 式 的 文件 存储 服务 。 

那么 ,NameNode 是 如 何 管理 分 布 式 文件 系统 的 命名 空间 呢 ? 其 实 , 在 NameNode 内 
部 是 以 元 数据 的 形式 ,维护 着 两 个 文件 ,分别 是 FsImage 镜像 文件 和 EditLog 日 志文 件 。 其 
中 ,FsImage 镜像 文件 用 于 存储 整个 文件 系统 命名 空间 的 信息 ,EditLog 日 志文 件 用 于 持久 
化 记录 文件 系统 元 数据 发 生 的 变化 。 当 NameNode 启动 的 时 候 ,FsImage 镜像 文件 就 会 被 
加 载 到 内 存 中 ,然后 对 内 存 里 的 数据 执行 记录 的 操作 ,以 确保 内 存 所 保留 的 数据 处 于 最 新 的 
状态 ,这 样 就 加 快 了 元 数据 的 读 取 和 更 新 操作 。 

随 着 集群 运行 时 间 长 , NameNode 中 存储 的 元 数据 信息 越 来 越 多 ,这 样 就 会 导致 
EditLog 日 志文 件 越 来 越 大 。 当 集群 重启 时 ,NameNode 需要 恢复 元 数据 信息 ,首先 加 载 上 
一 次 的 FsImage 镜像 文件 ,然后 在 重复 EditLog 日 志文 件 的 操作 记录 ,一 旦 EditLog 日 志文 
件 很 大 ,在 合并 的 过 程 中 就 会 花费 很 长 时 间 , 而 且 如 果 NameNode 宕 机 就 会 丢失 数据 。 为 
了 解决 这 个 问题 ,HDFS 中 提供 了 Secondary NameNode( 辅 助 名 称 节点 ), 它 并 不 是 要 取代 
NameNode 也 不 是 NameNode 的 备份 , 它 的 职责 主要 是 周期 性 地 把 NameNode 中 的 
EditLog 日 志文 件 合并 到 FsImage 镜像 文件 中 ,从 而 减 小 EditLog 日 志文 件 的 大 小 ,缩短 集 
和 群 重启 时 间 ,并 且 保 证 了 HDFS 系统 的 完整 性 。 

Namenode 存储 的 是 元 数据 信息 ,元 数据 信息 并 不 是 真正 的 数据 ,真正 的 数据 是 存储 在 
DataNode 中 。DataNode 是 负责 管理 它 所 在 节点 上 的 数据 存储 。DataNode 中 的 数据 块 是 
以 文件 的 类 型 存储 在 磁盘 中 ,其 中 包含 两 个 文件 ,一 是 数据 本 身 ( 仅 数据 ), 二 是 每 个 数据 块 
对 应 的 一 个 元 数据 文件 (包括 数据 长 度 , 块 数据 校 验 和 ,以 及 时 间 戳 ) 。 


3.2.2 HDFS 文件 读 写 原理 


Client( 客 户 端 ) 对 HDFS 中 的 数据 进行 读 写 操作 ,分 别 是 Client 从 HDFS 中 查找 数据 ， 
即 为 Read( 读 ) 数 据 ;Client 从 HDFS 中 存储 数据 ， 
即 为 Write( 写 ) 数 据 。 下 面 对 HDFS 的 读 写 流程 进 | 


block_01 OM~128M 


行 详细 的 介绍 。 假 设 有 一 个 1. txt 文件 ,大 小 为 block 02 128256M 
300M, 这 样 就 划分 出 3 个 数据 块 ,如 图 3-7 所 示 。 OR block_03 256~300M 
下 面 ,借助 图 3-7 所 示 的 文件 ,分 别 讲解 HDFS Ee 
文件 读数 据 和 写 数据 的 原理 。 9 
1. HDFS 写 数 据 原 理 


把 文件 上 传 到 HDFS 中 ,HDFS 究竟 是 如 何 存储 到 集群 中 去 的 ,又 是 如 何 创 建 备份 的 ， 
接 下 来 学 习 客户 端 向 HDFS 中 写 数 据 的 流程 ,如 图 3-8 所 示 。 

从 图 3-8 可 以 看 出 ,HDFS 中 的 写 数 据 流程 可 以 分 为 12 个 步骤 ,具体 如 下 : 

(1) 客户 端 发 起 文件 上 传 请 求 ,通过 RPC( 远 程 过 程 调用 ) 与 NameNode 建立 通信 。 

(2) NameNode 检查 元 数据 文件 的 系统 目录 树 。 

(3) 若 系统 目录 树 的 父 目 录 不 存在 该 文件 相关 信息 ,返回 客户 端 可 以 上 传 文件 。 

(4) 客户 端 请 求 上 传 第 一 个 Block 数据 块 ,以 及 数据 块 副本 的 数量 (可 以 自 定义 副本 数 
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图 3-8 HDFS 写 数据 流程 


量 , 也 可 以 使 用 集群 规划 的 副本 数量 )。 

(5) NameNode 检测 元 数据 文件 中 DataNode 信息 池 , 找 到 可 用 的 数据 节点 (DataNode 
_01,DataNode_02 和 DataNode_03)。 

(6) 将 可 用 的 数据 节点 的 IP 地 址 返回 给 客户 端 。 

(7) 客户 端 请 求 3 台 节点 中 的 一 台 服 务 器 DataNode_01, 进 行 传送 数据 (本 质 上 是 一 个 
RPC 调用 ,建立 管道 Pipeline) , DataNode_01 收 到 请 求 会 继续 调用 服务 器 DataNode_02, 然 
后 服务 器 DataNode_02 调用 服务 器 DataNode_03 。 

(8) DataNode 之 间 建 立 Pipeline 后 ,逐个 返回 建立 完毕 信息 。 

(9) 客户 端 与 DataNode 建立 数据 传输 流 , 开 始 发 送 数据 包 ( 数 据 是 以 数据 包 形 式 进行 发 送 ) 。 

(10) 客户 端 向 DataNode_01 上 传 第 一 个 Block 数据 块 ,是 以 Packet 为 单位 (默认 64K) 
发 送 数 据 块 。 当 DataNode_01 收 到 一 个 Packet 就 会 传 给 DataNode_02 ,DataNode_02 传 给 
DataNode_03; DataNode_01 每 传送 一 个 Packet 都 会 放 入 一 个 应 答 队 列 等 待 应 答 。 

(11) 数据 被 分 割 成 一 个 个 Packet 数据 包 在 Pipeline 上 依次 传输 ,而 在 Pipeline 反方 向 
上 ,将 逐个 发 送 Ack( 命 令 正确 应 答 ) ,最终 由 Pipeline 中 第 一 个 DataNode 节点 DataNode_ 
01 将 Pipeline 的 Ack 信息 发 送 给 客户 端 。 

(12) DataNode 返回 给 客户 端 ,第 一 个 Block 块 传输 完成 。 客 户 端 则 会 再 次 请 求 
NameNode 上 传 第 二 个 Block 块 和 第 三 个 Block 块 到 服务 器 上 ,重复 上 面 的 步骤 ,直到 3 个 
Block 都 上 传 完毕 。 

小 提示 : Hadoop 在 设计 时 考虑 到 数据 的 安全 与 高 效 , 数 据 文件 默认 在 HDFS 上 存放 3 
份 ,存储 策略 为 本 地 一 份 , 同 机 架 内 其 他 某 一 节点 上 一 份 , 不 同 机 架 的 某 一 节点 上 一 份 。 

Ack: 检验 数据 完整 性 的 信息 。 


2. HDFS 读数 据 流程 


前 面 已 经 知道 客户 端 向 HDFS 写 数 据 的 流程 , 接 下 来 学 习 客 户 端 从 HDFS 中 读数 据 的 
流程 ,如 图 3-9 所 示 。 
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图 3-9 HDFS 读数 据 流 程 


从 图 3-9 可 以 看 出 ,HDFS 中 的 读数 据 流程 可 以 分 为 4 个 步骤 ,具体 如 下 : 

(1) 客户 端 向 NameNode 发 起 RPC 请 求 ,来 获取 请 求 文件 Block 数据 块 所 在 的 位 置 。 

(2) NameNode 检测 元 数据 文件 ,会 视 情 况 返 回 Block 块 信息 或 者 全 部 Block 块 信息 ， 
对 于 每 个 Block 块 ,NameNode 都 会 返回 含有 该 Block 副本 的 DataNode 地 址 。 

(3) 客户 端 会 选取 排序 靠 前 的 DataNode 来 依次 读 取 Block 块 ( 如 果 客 户 端 本 身 就 是 
DataNode, 那 么 将 从 本 地 直接 获取 数据 ), 每 一 个 Block 都 会 进行 CheckSum( 完 整 性 验证 )， 
若 文件 不 完整 , 则 客户 端 会 继续 向 NameNode 获取 下 一 批 的 Block 列表 ,直到 验证 读 取出 来 
文件 是 完整 的 , 则 Block 读 取 完毕 。 

(4) 客户 端 会 把 最 终 读 取出 来 所 有 的 Block 块 合并 成 一 个 完整 的 最 终 文件 (如 1. txt) 。 

小 提示 : NameNode 返回 的 DataNode 地 址 ,会 按照 集群 拓扑 结构 得 出 DataNode 与 客 
户 端的 距离 ,然后 进行 排序 。 排 序 有 两 个 规则 : 网 络 拓扑 结构 中 距离 客户 端 近 的 则 靠 前 ; 心 
跳 机 制 中 超时 汇报 的 DataNode 状态 为 无 效 的 , 则 排 靠 后 。 


3.3 ”HDFS 的 Shell 操作 


HDFS 提供 了 多 种 数据 访问 方式 ,其 中 ,命令 行 的 形式 是 最 简单 的 ,同时 也 是 许多 开发 
者 最 容易 掌握 的 方式 ,本 节 将 针对 HDFS 的 基本 操作 进行 讲解 。 


3.3.1 HDFS Shell 介绍 


Shell 在 计算 机 科学 中 俗称 “ 壳 ”, 是 提供 给 使 用 者 使 用 界面 的 进行 与 系统 交互 的 软件 ， 
通过 接收 用 户 输入 的 命令 执行 相应 的 操作 ,Shell 分 为 图 形 界 面 Shell 和 命令 行 式 Shell。 
HDFS Shell 包含 类 似 Shell 的 命令 ,示例 如 下 : 


hadoop £5 <args> 
hadoop dfs <args> 
hafs dfs <args> 
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上 述 命令 中 ,“hadoop fs” 使 用 面 最 广 ,可 以 操作 任何 文件 系统 ,如 本 地 系统 .HDFS 等 ; 
“hadoop dfs” 则 主要 针对 HDFS, 已 经 被 *hdfs dfs” 代 替 。 

文件 系统 (FS)Shell 包含 了 各 种 的 类 shell 的 命令 ,可 以 直接 与 Hadoop 分 布 式 文件 系 

统 以 及 其 他 文件 系统 进行 交互 ,如 与 Local FS、.HTTP FS、S3 FS 文件 系统 交互 等 。 通 过 命 
令 行 的 方式 进行 交互 ,具体 操作 常用 命令 ,如 表 3-1 所 示 。 
表 3-1 HDFS Shell 参数 


命令 参数 功能 描述 命令 参数 功能 描述 
-ls 查看 指定 路 径 的 目录 结构 -put 上 传 文件 
-du 统计 目录 下 所 有 文件 大 小 -cat 查看 文件 内 容 
-mv 移动 文件 -text 将 源 文件 输出 为 文本 格式 
-cp 复制 文件 -mkdir 创建 空白 文件 夹 
-rm 删除 文件 /空白 文件 夹 -help 帮助 


从 表 3-1 可 以 看 出 ,HDFS 支持 的 命令 行 很 多 ,但 这 里 只 列举 常用 的 一 部 分 ,如 果 需 要 
了 解 全 部 命令 或 使 用 过 程 中 遇 到 问题 都 可 以 使 用 “hadoop fs -help” 命 令 获 取 帮 助 文档 ,也 
可 以 通过 Hadoop 官方 文档 http://hadoop. apache. org/docs/stable/hadoop-project-dist/ 
hadoop-common/FileSystemShell. html 学 习 . 接 下 来 对 这 些 常 用 的 命令 进行 操作 演示 。 


1. ls 命令 

ls 命令 用 于 查看 指定 路 径 的 当前 目录 结构 ,类 似 于 Linux 系统 中 的 ls 命令 ,其 语法 格 
式 如 下 ， 

haaoo 后 -15 上 本 Ch] FRI <amgs> 


其 中 ,各 项 参数 说 明 如 下 。 
。 -d: 将 目录 显示 为 普通 文件 。 
。-h: 使 用 便于 操作 人 员 读 取 的 单位 信息 格式 。 
。 -R: 递归 显示 所 有 子 目录 的 信息 。 
示例 代码 如 下 : 


$ hadoop fs -1s5/ 

上 述 示 例 代码 ,执行 完成 后 会 展示 HDFS 根 目 录 下 的 所 有 文件 及 文件 夹 ,如 图 3-10 
所 示 。 

2. mkdir 命令 

mkdir 命令 用 于 在 指定 路 径 下 创建 子 目录 ,其 中 创建 的 路 径 可 以 采用 URI 格式 进行 指 
定 ,与 Linux 命令 mkdir 相同 ,可 以 创建 多 级 目录 ,其 语法 格式 如 下 : 


hadoop £5 -mkdir [-p] <paths> 
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- root supergroup 0 2018-09-08 18:16 /tmp 
WXr —Xr — root supergroup 0 2018-09-08 18:16 /wordcount 
[root@hadoop01 ~]# 国 


ssh2: AES-256-CTR 5, 20 ”8 Rows, 80 Cols VT100 CAP NUM | 
图 3-10 ls 命令 效果 


其 中 -p 参数 表示 创建 子 目录 来 先 检查 路 径 是 否 存在 ,如 果 不 存在 , 则 创建 相应 的 各 级 目录 。 
示例 代码 如 下 : 


$ hadocp £5 -mlir -p /itcast/hadoop 


上 述 示例 代码 是 在 HDFS 的 根 目 录 下 创建 “itcast/hadoop” 层 级 文件 夹 ,“-p” 参 数 表示 
递归 创建 路 径 中 的 各 级 目录 。 执 行 命令 后 效果 如 图 3-11 所 示 。 


Tcast. 
root@hadoopol ~ ~]# hadoop fs -1s /iteast 
Found 1 items 

Tr - root supergroup 0 2018-09-09 23:29 /itcast/hadoop 
[rootehadoopol ~]# 


ssh2: AES-256-CTR 5, 20 8Rows,80Cols VT100 CAP NUM | 


图 3-11 mkdir 命令 效果 


3. put 命令 
put 命令 用 于 将 本 地 系统 的 文件 或 文件 夹 复制 到 HDFS 上 去 ,其 语法 格式 如 下 : 
hadbap 5 -Put -fH Fp] < locationsrc> <det> 


其 中 各 项 说 明 如 下 : 
。 了: 覆盖 目标 文件 。 
。 -p: 保留 访问 和 修改 时 间 、 权 限 。 
示例 代码 如 下 : 


$ hadoop fs -Put -£ install.log / 
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上 述 指令 执行 成 功 后 查询 HDFS 根 目录 效果 如 图 3-12 所 示 。 
EIT 


Fle ES Vew QOptions Iransfer Script Tools Wndow Help 
Enter host <Alt+R> 5 


久 192168.121134 x 9 192.168.121.135 可 @ 192.168.121.136 


root@hadoopol ~]# hadoop Ts -put -FTnstaTT. Tog 7 ~ 

root@hadoopO1 巴 hadoop fs he 

Found 4 items 

-rw-r--r-- 3 root supergroup 8015 2018-09-19 99:49 /install. 10g 

drwxr-xr-x  - root supergroup 8-09-09 23:29 /itcast 

dr - root supergroup 9 2018-09-08 28:18 /t mp | 
-~ root supergroup 0 2018-09-08 18:16 /wordcount 国 | 

adsopoi 一] 地 四 


ssh2: AES-256-CTR 


图 3-12 ”put 命令 效果 


3.3.2 ”案例 一 一 Shell 定时 采集 数据 到 HDFS 


在 3.3.1 节 ,对 HDFS 客户 端 命令 行 以 及 常用 的 命令 进行 了 介绍 ,本 节 将 通过 采集 数 
据 文件 脚本 的 案例 来 对 3. 3. 1 节 所 学 的 知识 进行 巩固 。 

服务 器 每 天 会 产生 大 量 日 志 数据 ,并 且 日 志文 件 可 能 存在 于 每 个 应 用 程序 指定 的 data 
目录 中 ,在 不 使 用 其 他 工具 的 情况 下 ,将 服务 器 中 的 日 志文 件 规范 地 存放 在 HDFS 中 。 通 
过 编写 简单 的 shell 脚本 ,用 于 每 天 自动 采集 服务 器 上 的 日 志文 件 ,并 将 海量 的 日 志 上 传 至 
HDFS 中 。 由 于 文件 上 传 时 会 消耗 大 量 的 服务 器 资源 ,为 了 减轻 服务 器 的 压力 ,可 以 避 开 高 
峰 期 ,通常 会 在 凌晨 进行 上 传 文件 的 操作 。 下 面 按照 步骤 实现 Shell 定时 日 志 采 集 功 能 。 


1. 配置 环境 变量 


首先 在 /export/data/logs 目录 下 (如 果 目 录 不 存在 , 则 需要 提前 创建 ) 使 用 vi 命令 创建 
upload2HDFS. sh 脚本 文件 ,在 编写 Shell 脚本 时 ,需要 设置 Java 环境 变量 ,即使 当前 虚拟 
机 节点 已 经 配置 了 Java 环境 变量 ,这 样 做 是 用 来 提高 系统 的 可 靠 性 ,保障 运行 程序 的 机 器 
在 没有 配置 环境 变量 的 情况 下 依然 能 够 运行 脚本 。 代 码 如 下 所 示 : 


export JAVA_HME= /export/servers/jdk 

export. JFE, HM $ {JAVA HME}/jre 

export CLASSPATH= .:5 {JAVA HME}/lib:$ {JFE HME}L1ib 
export PATH= $ {JAVA HME}/bin:$ PATH 


在 配置 完 Java 环境 变量 之 后 还 需要 配置 Hadoop 的 环境 变量 ,代码 如 下 所 示 : 
‘Export. BADOOP HOME= /export/servers/hadbop- 2.7.4/ 

export. PATH= $ {HADOOP HME}/bin:$ {HADOCP HME}/sbin:$ PATH 

2. 准备 日 志 存 放 目 录 和 待 上 传 文件 


为 了 让 开发 者 便于 控制 上 传 文件 的 流程 ,可 以 在 脚本 中 设置 一 个 日 志 存放 目录 和 待 上 
传 文件 目录 , 若 上 传 过 程 中 发 生 错 误 只 需要 查看 该 目录 就 能 知道 文件 的 上 传 进度 。 添 加 相 


第 3 章 HDFS 分 布 式 文件 系统 ”E99 


应 代码 如 下 所 示 : 


为 了 保证 后 续 脚 本 文件 能 够 正常 执行 ,还 需要 在 启动 脚本 前 手动 创建 好 这 两 个 目录 。 
3. 设置 日 志文 件 上 传 的 路 径 
设置 上 传 的 HDFS 目标 路 径 , 命 名 格式 以 时 间 结 尾 , 并 且 输出 打印 信息 。 添 加 代码 如 


4. 实现 文件 上 传 


上 传 文件 的 过 程 就 是 遍历 文件 目录 的 过 程 ,将 文件 首先 移动 到 待 上 传 目 录 ,再 从 待 上 传 
目录 中 上 传 到 HDFS 中 。 添 加 代码 如 下 所 示 : 


最 后 将 文件 从 待 上 传 目录 传 至 HDFS 中 ,具体 代码 如 下 所 示 : 
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# 打 印信 息 
echo "toupload is in file:"s line 
# 将 待 上 传 文件 列表 willDoing 改 名 为 willDoing coPY 
mm $ 1og toupload dir$ line $ log toupload dir$ line" OopY " 
# 读 列表 文件 wilipoing coPY 的 内 容 (一 个 一 个 的 待 上 传 文件 名 ) 
# 此 处 的 line 就 是 列表 中 的 一 个 待 上 传 文件 的 path 
cat $ 1og toupload dir$ line" aoPY " |while read line 
中 
+ 打印 信息 
echo "puting..$ line to hdfs path...$ hdfs root dir”" 
hadoop £5 -mlaiir ~-p $hdfs root dir 
hadoop £5 -Put $ line $ hdfs root dir 
done 
mw $ log toupload dir$ line" COPY " $ log toupload dir$ line" DONE " 
dne 


如 果 在 每 天 凌晨 12 点 执行 一 次 ,可 以 使 用 Linux Crontab 表达 式 执行 定时 任务 。 
00*#*## /shell/opload2HDFS.sh 


上 述 crontab 表达 式 是 由 6 个 参数 决定 ,分 别 为 分 .时 .日 月. 周 、 命 令 组 成 ,其 中 
/shell/upload2HDFS. sh 为 shell 脚本 的 绝对 路 径 。 由 于 crontab 表达 式 并 非 本 书 重点 , 想 
要 深入 学 习 的 读者 可 以 自行 查阅 资料 。 


5. 执行 程序 展示 运行 结果 


一 般 日 志文 件 产生 是 由 业务 决定 ,例如 每 小 时 滚动 一 次 或 者 日 志文 件 大 小 达到 1G 
时 ,就 滚动 一 次 ,产生 新 的 日 志文 件 。 为 了 避免 每 个 日 志文 件 过 大 导致 上 传 效 率 低 ,可 以 
采取 在 滚动 后 的 文件 名 后 添加 一 个 标识 的 策略 ,例如 access. log. x,x 就 是 文件 标识 , 它 可 
以 为 序号 .日 期 等 自 定 义 名 称 ,该 标识 用 于 表示 日 志文 件 滚 动 过 一 次 ,滚动 后 的 文件 ,新 
产生 的 数据 将 不 再 写 入 该 文件 中 , 当 满 足 业务 需求 时 , 则 文件 可 以 被 移动 到 待 上 传 目 录 ， 
如 图 3-13 所 示 。 


r 
192.168.121.134 - SecureCRT esl™=x™)| 


文人 (篇 问 (E) ”查看 (V)” 远 项 (0) 传 巡 (0) 用 本 (S) 工具 (L 帮助 (H) 
涪 习 器 习 冯 | 宇 区 装 | 台 号 与 | 玉 尖 9 加 | 画 昌 


| 192.168.121.134 


4 
a 14 00:44 access. 10g.4 
-rw-r--r--. 1 root root 7 8 月 14 00:44 access.10g.5 

[rootehadoopOl 1o9]# 国 国 


就 绪 ssh2: AES-256-CTR 9,，22 10 行 :111 列 VT100 大写 数字 


图 3-13 ”滚动 日 志文 件 


从 图 3-13 可 以 看 出 ,为 了 模拟 生产 环境 ,在 日 志 存 放 目 录 /export/data/logs/log/ 中 , 手 
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动 创建 日 志 志文 件 ,access. log 表示 正在 源源 不 断 地 产生 日 志 的 文件 ,access. log. 1] 、access。 
log. 2 等 表示 已 经 滚动 完毕 的 日 志文 件 , 即 为 待 上 传 日 志文 件 。 

在 upload2HDFS. sh 文件 路 径 下 使 用 “sh upload2HDFS. sh? 指 令 执行 程序 脚本 ,打印 
执行 流程 ,如 图 3-14 所 示 。 

EEC elo 


文件 编 各 (查看 V) 选项 IO) 传 怠 (脚本 (5) 工具 (帮助 (H) 
漳 习 加 习 疯 | 区 多 | 号 号 纪 | 于 谊 91@ 国 记 


ET 
晤 用 量 ,12 
jrwxr-xr-x。2 root root 4096 8 月 14 00:44 1 
drwar -xr-x,2 root root 4096 8 月 14 00:43 tT 


ng 7 
ee 10g.12018_08_14_00_46_28 
LSApor Ldatal lags /soup1oad se eR fog access,. 10g. 22018_08_14_00_46_28 
oe eR og access. 10g. 32018_08_14_00_46_28 
/Spor /dar a 1ogs/199/access: ops 

oocxx_ clicl ograccess. 10g.42018_08_14_00_46_28 


moving /export/data/1logs/10g/access., 1ox 
3 vB sel oonaccsss. 1o9g. 52018_08_14_00_46_28 


toupload is ji 1e:wi11poing.2018_08_14_ 
ng po 1088/ 0Bip load riceR og access. 1og.12018_08_14_00 46_28 to hdfs path..... /data/clickLog/ 
Bg export/data/1ogs/toupload/ooo0_ click_1og access. 109. 22018_08_14_00.46_25 to hdfs path...../data/clickLog/ 
putings i $xport/data/1o9s/toup1oad /oooer_ click_1og_access. 10g. 32018_08_14_00_46_28 to hdfs path...../data/clickLog/ 
Eng 3 Sxport /dara/1o0s/toupload/ wooer click 1og access. 10g.42018_08_14_00_46_28 to hdfs path...../data/clickLog/ 
But1ngs. :69xPport/data/Yogs/toupload/wooo elick 1og access lo9. 52018-08-14-00.46-28 to hdfs path.,.../dara/cWckLog/ 国 
reo ogs]# 

| 就 绪 ssh2: AES-256-CTR 30, 23 30 行 ,116 列 VT100 大写 数字 


图 3-14 运行 脚本 


从 图 3-14 可 以 看 出 ,首先 将 日 志 存 放 目 录 log 中 的 日 志文 件 移动 到 待 上 传 toupload 目 
录 下 ,并 根据 业务 需求 重 命名 ,然后 脚本 自动 执行 “hadoop put” 上 传 命令 ,将 待 上 传 目 录 下 
的 所 有 日 志文 件 上 传 至 HDFS 中 。 通 过 HDFS Web 界面 可 以 看 到 ,需要 采集 的 日 志文 件 
已 经 按照 日 期 分 类 ,上 传 到 HDFS 中 ,如 图 3-15 所 示 。 


Browse Directory 


[datajdickL og/2018 08 13 


Block Sie 。 Name 


2018/8/14 上 午 124635 oocotclickJog_accesslog 12018_08_14 .00 


2018/8/14 上 F1246:40 e000 click Jog_accessJog 22018._08. 


2018/8/14 上 1246:46 oocotclickJog_accessJog 32018， 


2018/8/14 上 午 124651 oo click Jog accessjog42018 08 14 00 46 28 


2018/3/14 上 午 124657 ooo00. cick Jog accessJog.52018 08 14 00 46 28 


图 3-15 日 志 采 集 文件 


小 提示 : Shell 脚本 语言 并 非 本 章节 的 重点 ,读者 只 需要 掌握 本 节 人 案例 的 业务 和 思 
可 以 读 懂 简单 的 Shell 脚本 语言 即 可 。 
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3.4 HDFS 的 Java API 操作 


由 于 Hadoop 是 使 用 Java 语言 编写 的 ,因此 可 以 使 用 Java API 操作 Hadoop 文件 系 
统 。HDFS Shell 本 质 上 就 是 对 Java API 的 应 用 ,通过 编程 的 形式 操作 HDFS, 其 核心 是 使 
用 HDFS 提供 的 Java API 构造 一 个 访问 客户 端 对 象 ,然后 通过 客户 端 对 象 对 HDFS 上 的 
文件 进行 操作 ( 增 、 删 . 改 、 查 )。 本 节 对 HDFS 提供 的 Java API 进行 详细 讲解 。 


3.4.1 HDFS Java API 介绍 


Hadoop 整合 了 众多 文件 系统 ,HDFS 只 是 这 个 文件 系统 的 一 个 实例 。HDFS Java API 
的 核心 包 如 下 所 示 。 

。 org. apache. hadoop. fs. FileSystem: 它 是 通用 文件 系统 的 抽象 基 类 ,可 以 被 分 布 式 
文件 系统 继承 , 它 具 有 许多 实现 类 ,如 LocalFileSystem、 DistributedFileSystem、 
FtpFileSystem 等 。 
org. apache. hadoop. fs. FileStatus: 它 用 于 向 客户 端 展示 系统 中 文件 和 目录 的 元 数 
据 , 具 体 包含 文件 大 小 、 块 大 小 、 副 本 信息 、 修 改 时间 等 。 
org. apache. hadoop. fs. FSDataInputStream: 文件 输入 流 , 用 于 读 取 Hadoop 文件 。 
org. apache. hadoop. fs. FSDataOutputStream: 文件 输出 流 , 用 于 写 Hadoop 文件 。 
org. apache. hadoop. conf. Configuration: 访问 配置 项 ,默认 配置 参数 在 core-site 
.xml 中 ,用 户 可 以 添加 相应 的 配置 参数 。 
org. apache. hadoop. fs. Path: 用 于 表示 Hadoop 文件 系统 中 的 一 个 文件 或 者 一 个 目 
录 的 路 径 。 

在 Java 中 操作 HDFS, 首 先 需要 创建 一 个 客户 端 实例 ,主要 涉及 以 下 类 : 

。 Configuration : 该 类 的 对 象 封装 了 客户 端 或 者 服务 器 的 配置 ,每 个 配置 选项 是 一 个 
键 值 对 ,通常 情况 下 , Configuration 实例 会 自动 加 载 HDFS 的 配置 文件 core-site 
.xml, 从 中 获取 Hadoop 集群 的 配置 信息 。 

FileSystem: 该 类 的 对 象 是 一 个 文件 系统 对 象 ,通过 该 对 象 的 一 些 方法 可 以 对 文件 
进行 操作 ,常用 方法 如 表 3-2 所 示 ; 


表 3-2 FileSystem 常用 方法 


方法 名 称 方法 描述 
copyFromLocalFile(Path sre, Path dst) 从 本 地 磁盘 复制 文件 到 HDFS 
copyToLocalFile( Path src, Path dst) 从 HDFS 复制 文件 到 本 地 磁盘 
mkdirs(Path f) 建立 子 目 录 
rename( Path src, Path dst) 重 命 名 文件 或 文件 夹 
delete(Path f) 删除 指定 文件 
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小 提示 : Hadoop API 非常 庞大 ,读者 可 以 通过 Hadoop 官方 文档 自行 查阅 学 习 , 地 址 
如 下 : http://hadoop. apache. org/docs/stable/api/index. html。 


3.4.2 ”案例 一 一 使 用 Java API 操作 HDFS 


本 节 通 过 Java API 来 演示 如 何 操 作 HDFS 文件 系统 ,包括 文件 上 传 与 下 载 以 及 目录 操 
作 等 ,具体 介绍 如 下 。 


1. 搭建 项 目 环境 


打开 Eclipse 选择 File->New 一 Maven Project 创建 Maven 工程 ,选择 “Create a simple 
project” 选 项 , 单 击 Next 按钮 ,会 进入 “New Maven Project” 界 面 ,如 图 3-16 所 示 。 


New Maven project 
Solect project name and location 


Create a simple project (skip archetype selection) 


Use default Workspace location 
Location: be | (Browse- 
Add project(s) to working set 
Working set: -| | More. 
，Advanced 


图 3-16 创建 Maven 工程 


在 图 3-16 中 ,选中 “Create a simple project(skip archetype selection)” 表 示 创 建 一 个 简 
单 的 项 目 ( 跳 过 原型 模板 的 选择 ) ,然后 选中 “User default Workspace location” 表 示 使 用 本 
地 默认 的 工作 空间 之 后 , 单 击 Next 按钮 ,如 图 3-17 所 示 。 

在 图 3-17 中 ,GroupId 也 就 是 项 目 组 织 唯一 的 标识 符 , 实 际 对 应 Java 的 包 结构 ,这 里 输 
入 com. itcast。ArtifactId 就 是 项 目的 唯一 标识 符 , 实 际 对 应 项 目的 名 称 ,就 是 项 目 根 目录 
的 名 称 ,这 里 输入 HadoopDemo, 打 包 方 式 这 里 选择 jar 包 方 式 即 可 ,后 续 创 建 Web 工程 选 
择 war 包 。 

此 时 Maven 工程 已 经 被 创建 好 了 ,会 发 现在 Maven 项 目 中 ,有 一 个 pom. xml 的 配置 文 
件 ,这 个 配置 文件 就 是 对 项 目 进行 管理 的 核心 配置 文件 。 

使 用 Java API 操作 HDFS 需要 用 到 hadoop-common .hadoop-hdfs 和 hadoop-client 3 
种 依赖 ,同时 为 了 进行 单元 测试 .还 要 引入 junit 的 测试 包 , 具 体 代 码 如 文件 3-1 所 示 。 
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图 3-17 创建 Maven 工程 配置 


文件 3-1 pom. xml 
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当 添加 依赖 完毕 后 , Hadoop 相关 jar 包 就 会 自动 下 载 ,部 分 jar 包 如 图 3-18 所 示 。 


图 3-18 成 功 导入 jar 包 


从 图 3-18 可 以 看 出 ,所 需要 的 Hadoop 的 jar 包 所 在 路 径 就 是 setting. xml 中 配置 的 本 
地 仓库 位 置 。 


2. 初始 化 客户 端 对 象 


首先 在 项 目 src 文件 夹 下 创建 com. itcast. hdfsdemo 包 , 并 在 该 包 下 创建 HDFS 
CRUD. java 文件 ,编写 Java 测试 类 ,构建 Configuration 和 FileSystem 对 象 ,初始 化 一 个 客 
户 端 实例 进行 相应 的 操作 ,具体 代码 如 文件 3-2 所 示 。 

文件 3-2 HDFS_CRUD. java 
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在 上 述 代 码 中 ,@ Before 是 一 个 用 于 在 Junit 单元 测试 框架 中 控制 程序 最 先 执 行 的 注 
解 , 这 里 可 以 保证 init() 方 法 在 程序 中 最 先 执行 。 

小 提示 : FileSystem. get() 方 法 从 conf 中 的 设置 的 参数 fs. defaultFS 的 配置 值 , 用 来 设 
置 文件 系统 类 型 。 如 果 代 码 中 没有 指定 为 fs. defaultFS, 并 且 工 程 classpath 下 也 没有 给 定 
相应 的 配置 , 则 conf 中 的 默认 值 就 来 自 于 hadoop-common-2. 7. 4.jar 包 中 的 core-default 
. Xxml, 上 默认 值 为 file:///”, 这 样 获取 的 不 是 DistributedFileSystem 实例 ,而 是 一 个 本 地 文件 
系统 的 客户 端 对 象 。 


3. 上 传 文件 到 HDFS 


初始 化 客户 端 对 象 后 , 接 下 来 实现 上 传 文件 到 HDFS 的 功能 。 由 于 采用 Java 测试 类 来 
实现 JavaApi 对 HDFS 的 操作 ,因此 可 以 在 HDFS_CRUD. java 文件 中 添加 一 个 
testAddFileToHdfs() 方 法 来 演示 本 地 文件 上 传 到 HDFS 的 示例 ,具体 代码 如 下 : 


@Test 

Public void testnodFileToHifs () throws IOException { 
// 要 上 传 的 文件 所 在 本 地 路 径 
Path src= new Path("D:/test.txt"); 
// 杰 上传 到 HLES 的 目标 路 径 
Path dst= new Path ("/testFile"); 
// 上 上 传 文件 方法 
£5.00pyFrarLocalFile (src, dst); 
/关闭 资源 
£5.close(); 

2. 


从 上 述 代 码 可 以 看 出 ,可 以 通过 FileSystem 对 象 的 copyFromLocalFile() 方 法 ,将 本 地 
数据 上 传 至 HDFS 中 。copyFromLocalFile() 方 法 接收 两 个 参数 ,第 一 个 参数 是 要 上 传 的 文 
件 所 在 的 本 地 路 径 ( 需 要 提前 创建 ) .第 二 个 参数 是 要 上 传 到 HDFS 的 目标 路 径 。 


4. 从 HDFS 下 载 文件 到 本 地 


在 HDFS_CRUD. java 文件 中 添加 一 个 testDownloadFileToLocal( ) 方 法 ,来 实现 从 
HDFS 中 下 载 文 件 到 本 地 系统 的 功能 ,具体 代码 如 下 : 


// 从 HES 中 复制 文件 到 本 地 文件 系统 

@Test 

Public void testDownloadFileTorLocal () throws TllegalArgmentExosption, 
TCExosptian { 
// 下 载 文件 
£5.00pyToLocalFile (new Path("/testFile"), new Path("D:/")); 

£5.close(); 
} 


从 上 述 代 码 可 以 看 出 ,可 以 通过 FileSystem 对 象 的 copyToLocalFile() 方 法 从 HDFS 
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上 下 载 文件 到 本 地 。copyToLocalFile() 方 法 接收 两 个 参数 ,第 一 个 参数 是 HDFS 上 的 文件 
路 径 , 第 二 个 参数 是 下 载 到 本 地 的 目标 路 径 。 

注意 : 在 Windows 平台 开发 HDFS 项 目 时 , 若 不 设置 Hadoop 开发 环境 , 则 会 报 以 下 
错误 : 


java.io. ICExosptin: (mull) entry in command string: mmll chmpd 0644 D:\testFile 


解决 方式 : 

(1) 根据 教材 提示 ,安装 配置 Windows 平台 Hadoop( 注 意 ,配置 后 必须 重启 电脑 ) , 运 
行 没有 问题 。 

(2) 直接 使 用 下 载 的 Linux 平台 下 的 Hadoop 压缩 包 进 行 解 压 , 然 后 在 解压 包 bin 目录 
下 额外 添加 Windows 相关 依赖 文件 (winutils. exe、winutils. pdb、hadoop. dll) ,然后 进行 
Hadoop 环境 变量 配置 (注意 ,配置 后 必须 重启 电脑 ) ,运行 同样 没有 问题 。 

(3) 使 用 FileSystem 自 带 的 方法 即使 不 配置 Windows 平台 Hadoop 也 可 以 正常 运行 
(这 种 方法 下 载 后 就 是 没有 附带 一 个 类 似 . testFile. crc 的 校 验 文件 ) : 


£5.00pyToLIocalFile (false, new Path("/testFile"), new Path("D:/"),true); 


5. 目录 操作 


在 HDFS_CRUD. java 文件 中 添加 一 个 testMkdirAndDeleteAndRename() 方 法 ,实现 
目录 的 创建 ,删除 、 重 命名 的 功能 ,具体 代码 如 下 : 


// 创 建 , 删 除 , 重 命名 文件 
@Test 
Public void testMkiirmndpeletepPncPename () throws Excepticn { 
/创建 目录 
£5 mkdirs (new Path("/a/b/c")); 
£5 mkdirs (new Path ("/a2/b2/c2")); 
// 重 命名 文件 或 文件 夹 
£5.rename (new Path("/a"), new Path("/a3")); 
// 删 除 文件 夹 ,如 果 是 非 空 文件 夹 ,参数 2 必须 给 值 rue 
£5.delete (new Path("/a2"), true); 


从 上 述 代码 可 以 看 出 ,可 以 通过 调用 FileSystem 的 mkdirs() 方 法 创建 新 的 目录 ;调用 
delete() 方 法 可 以 删除 文件 夹 ,delete() 方 法 接收 两 个 参数 ,第 一 个 参数 表示 要 删除 的 文件 
夹 路 径 , 第 二 个 参数 用 于 设置 是 否 递归 删除 目录 ,其 值 为 true 或 false,true 表示 递归 删除 ， 
false 表示 非 递 归 删 除 ;调用 rename() 方 法 可 以 对 文件 或 文件 夹 重 命名 ,rename() 接 收 两 个 
参数 ,第 一 个 参数 代表 需要 修改 的 目标 路 径 , 第 二 个 参数 代表 新 的 命名 。 


6. 查看 目录 中 的 文件 信息 
在 HDFS_CRUD. java 文件 中 添加 一 个 testListFiles() 方 法 ,实现 查看 目录 中 所 有 文件 
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的 详细 信息 的 功能 ,代码 如 下 : 


在 上 述 代码 中 ,可 以 调用 FileSystem 的 listFiles() 方 法 获取 文件 列表 ,其 中 第 一 个 参数 
表示 需要 获取 的 目录 路 径 , 第 二 个 参数 表示 是 否 递归 查询 ,这 里 传人 参数 为 true, 表 示 需 要 
递归 查询 。 


3.5 ”本章 小 结 


本 章 主要 讲解 的 是 Hadoop 中 的 分 布 式 文件 系统 。 首 先 ,通过 对 HDFS 中 基本 概念 和 
特点 的 概述 ,让 大 家 对 Hadoop 分 布 式 文件 系统 有 基本 的 认识 ;其 次 ,对 HDFS 的 架构 和 原 
理 进行 讲解 ,让 大 家 明白 HDFS 内 部 运行 的 原理 ;最 后 ,通过 Shell 接口 和 Java API 接口 分 
别 对 HDFS 的 操作 进行 讲解 ,编写 实际 案例 ,让 大 家 对 本 章 的 知识 进行 实践 应 用 。 通 过 本 
章 的 学 习 , 大 家 可 以 使 用 HDFS 很 好 地 管理 文件 。 
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3.6 课 后 习题 


1 用 于 维护 文件 系统 名 称 并 管理 客户 端 对 文件 的 访问 ， 存储 真实 的 
数据 块 。 

2. NameNode 与 DataNode 通过 机 制 互 相通 信 。 

3. NameNode 以 元 数据 形式 维护 着 和 文件 。 


二 、 判 断 题 


1. Secondary NameNode 是 NameNode 的 备份 ,可 以 有 效 解 决 Hadoop 集群 单 点 故障 
问题 。 ( ) 
2. NameNode 负责 管理 元 数据 ,客户 端 每 次 读 写 请 求 时 ,都 会 从 磁盘 中 读 取 或 写 和 元 
数据 信息 并 反馈 给 客户 端 。 上 ) 
3 NameNode 本 地 磁盘 保存 了 数据 块 的 位 置信 息 。 ( ) 
三 、 选择 题 
1. Hadoop2. x 版 本 中 的 数据 块 大 小 默认 是 多 少 ?( ) 
A. 64M B. 128M C. 256M D. 512M 
2. 关于 Secondary NameNode 的 描述 哪 项 是 正确 的 ? ( 》 
A. 它 是 NameNode 的 热 备 。 
B. 它 对 内 存 没 有 要 求 。 
C. 它 的 目的 是 帮助 NameNode 合并 编辑 日 志 , 减 少 NameNode 启动 时 间 。 
D. SecondaryNameNode 应 与 NameNode 部 署 到 一 个 节点 。 
3. 客户 端 上 传 文件 的 时 候 哪 项 是 正确 的 ? (多 选 )( ) 
A. 数据 经 过 NameNode 传递 给 DataNode。 
B. 客户 端 将 文件 切 分 为 多 个 Block ,依次 上 传 。 
C. 客户 端 只 上 传 数据 到 一 台 DataNode, 然 后 由 NameNode 负责 Block 复制 工作 。 
D. 客户 端 发 起 文件 上 传 请 求 ,通过 RPC 与 NameNode 建立 通信 。 


四 、 简 答题 


1. 简 述 HDFS 上 传 文件 工作 流程 。 
2. 简 述 NameNode 管理 分 布 式 文件 系统 的 命名 空间 。 


五 、 编程 题 
通过 Java API 实现 上 传 文件 至 HDFS 中 。 
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学 习 目 标 

。 理解 MapReduce 的 核心 思想 。 

。 掌握 MapReduce 的 编程 模型 。 

。 掌握 MapReduce 的 工作 原理 。 

。 掌握 MapReduce 常见 编程 组 件 的 使 用 。 


MapReduce 是 Hadoop 系统 核心 组 件 之 一 , 它 是 一 种 可 用 于 大 数据 并 行 处 理 的 计算 模 
型 .框架 和 平台 ,主要 解决 海量 数据 的 分 析 计算 ,是 目前 分 布 式 计算 模型 中 应 用 较为 广泛 的 
一 种 ,本 章 对 MapReduce 原理 、 编 程 模型 及 案例 进行 深入 讲解 。 


4.1 MapReduce 概述 


4.1.1 MapReduce 核心 思想 


MapReduce 的 核心 思想 是 “分 而 治之 ”。 所 谓 “ 分 而 治之 "就 是 把 一 个 复杂 的 问题 ,按照 
一 定 的 “分 解 " 方 法 分 为 等 价 的 规模 较 小 的 若干 部 分 ,然后 逐个 解决 ,分 别 找 出 各 部 分 的 结 
果 , 把 各 部 分 的 结果 组 成 整个 问题 的 结果 ,这 种 思想 来 源 于 日 常生 活 与 工作 时 的 经 验 ,同样 
也 完全 适合 技术 领域 。 

为 了 更 好 地 理解 “分 而 治之 "思想 , 先 来 看 一 个 生活 中 的 例子 。 例 如 , 某 大 型 公司 在 全 国 
设立 了 分 公司 ,假设 现在 要 统计 公司 一 年 的 营 收 情况 制作 年 报 , 有 两 种 统计 方式 。 第 一 种 方 
式 是 全 国 分 公司 将 自己 的 账单 数据 发 送 至 总 部 ,由 总 部 统一 计算 公司 当年 的 营 收 报表 ;第 二 
种 方式 是 采用 分 而 治之 的 思想 ,也 就 是 说 , 先 要 求 分 公司 各 自 统 计 营 收 情况 ,再 将 统计 结果 
发 给 总 部 进行 统一 汇总 计算 。 这 两 种 方式 相 比 ,显然 第 二 种 方式 的 策略 更 好 ,工作 效率 
更 高 。 

MapReduce 作为 一 种 分 布 式 计 算 模型 , 它 主要 用 于 解决 海量 数据 的 计算 问题 。 使 用 
MapReduce 分 析 海 量 数据 时 ,每 个 MapReduce 程序 被 初始 化 为 一 个 工作 任务 ,每 个 工作 任 
务 可 以 分 为 Map 和 Reduce 两 个 阶段 ,具体 介绍 如 下 。 

。 Map 阶段 : 负责 将 任务 分 解 , 即 把 复杂 的 任务 分 解 成 若干 个 “简单 的 任务 ”来 并 行 处 

理 ,但 前 提 是 这 些 任务 没有 必然 的 依赖 关系 ,可 以 单独 执行 任务 。 
。 Reduce 阶段 : 负责 将 任务 合并 , 即 把 Map 阶段 的 结果 进行 全 局 汇总 。 
下 面 通过 一 个 图 来 描述 上 述 MapReduce 的 核心 思想 ,具体 如 图 4-1 所 示 。 
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大 数据 计算 任务 


Map 阶 段 | 子 任务 子 任务 | … 子 任务 | | 子 任务 


i Wa 


计算 结果 


Reduce 阶 段 


图 4-1 MapReduce 核心 思想 


从 图 4-1 可 知 ,MapReduce 就 是 “任务 的 分 解 与 结果 的 汇总 >”。 即 使 用 户 不 懂 分 布 式 计 
算 框架 的 内 部 运行 机 制 ,但 是 只 要 能 用 Map 和 Reduce 思想 描述 清楚 要 处 理 的 问题 ,就 能 轻 
松 地 在 Hadoop 集群 上 实现 分 布 式 计 算 功 能 。 


4.1.2 ”MapReduce 编程 模型 


MapReduce 是 一 种 编程 模型 ,用 于 处 理 大 规模 数据 集 的 并 行 运算 。 使 用 MapReduce 
执行 计算 任务 的 时 候 , 每 个 任务 的 执行 过 程 都 会 


被 分 为 两 个 阶段 ,分 别 是 Map 和 Reduce, 其 中 一 国 国 
Map 阶段 用 于 对 原始 数据 进行 处 理 ,Reduce 阶段 一 加 一 + 国 写 国 | 
用 于 对 Map 阶段 的 结果 进行 汇总 ,得 到 最 终结 站 一 图 画 pa 
果 , 这 两 个 阶段 的 模型 如 图 4-2 所 示 。 

MapReduce 编程 模型 借鉴 了 函数 式 程序 设计 | 输入 输出 输入 
语言 的 设计 思想 ,其 程序 实现 过 程 是 通过 map() Map 阶 段 Reduce 阶 段 
和 reduce() 函 数 来 完成 的 。 从 数据 格式 上 来 看 ， 图 4-2 MapReduce 简易 模型 


map() 函 数 接收 的 数据 格式 是 键 值 对 .产生 的 输 

出 结果 也 是 键 值 对 形式 ,reduce() 函 数 会 将 map() 函 数 输 出 的 键 值 对 作为 输入 ,把 相同 key 
值 的 value 进行 汇总 ,输出 新 的 键 值 对 。 接 下 来 ,通过 一 张 图 来 描述 MapReduce 的 简易 数 
据 流 模型 ,具体 如 图 4-3 所 示 。 


x- > <K2,V2> <K2,{V2…}> > -av 


图 4-3 MapReduce 简易 数据 流 模型 


对 于 图 4-3 描述 的 MapReduce 简易 数据 流 模型 说 明 如 下 : 

(1) 将 原始 数据 处 理 成 键 值 对 二 K1,V1 二 形式 。 

(2) 将 解析 后 的 键 值 对 二 K1.V1 二 传 给 map() 函 数 .map() 函数 会 根据 映射 规则 ,将 键 
值 对 二 K1,V1 二 映射 为 一 系列 中 间 结 果 形 式 的 键 值 对 二 K2, V2 。 

(3) 将 中 间 形 式 的 键 值 对 二 K2 ,V2 二 形成 一 K2, {V2,…) 记 形式 传 给 reduce() 函 数 处 
理 ,把 具有 相同 key 的 value 合并 在 一 起 .产生 新 的 键 值 对 二 K3.V3 二 ,此 时 的 键 值 对 二 K3 ， 
V3 二 就 是 最 终 和 输出 的 结果 。 

这 里 需要 说 明 的 是 ,对 于 某 些 任务 来 说 ,可 能 不 一 定 需要 Reduce 过 程 ,也 就 是 说 ， 
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MapReduce 的 数据 流 模型 可 能 只 有 Map 过 程 ,由 Map 产生 的 数据 直接 被 写 人 HDFS 中 。 
但 是 ,对 于 大 多 数 任务 来 说 ,都 是 需要 Reduce 过 程 的 ,并 且 可 能 由 于 任务 繁重 ,需要 设 定 多 
个 Reduce, 例 如 ,下 面 是 一 个 具有 多 个 Map 和 Reduce 的 MapReduce 模型 ,具体 如 图 4-4 
所 示 。 


输入 
输出 


输入 


= CD 


输入 


图 4-4 多 个 Map 和 Reduce 的 MapReduce 模型 


图 4-4 演示 的 是 含有 3 个 Map 和 2 个 Reduce 的 MapReduce 程序, 其 中 ,由 Map 产生 
的 相关 key 的 输出 都 会 集中 到 Reduce 中 处 理 ,而 Reduce 是 最 后 的 处 理 过 程 ,其 结果 不 会 进 
行 第 二 次 汇总 。 
4.1.3 ”MapReduce 编程 实例 一 一 词 频 统计 


通过 前 面 的 介绍 ,相信 大 家 对 MapReduce 的 编程 思想 和 模型 有 了 概念 上 的 了 解 ,下 
面 借助 MapReduce 编程 的 一 个 典型 案例 一 一 词 频 统计 , 来 学 习 实 现 MapReduce 编程 
开发 。 

假设 有 文件 4-1 和 文件 4-2 两 个 文本 文件 ,这 两 个 文本 文件 位 于 HDFS 中 。 

文件 4-1 textl. txt 


FHello World 
Hello Fadoop 
Hello itcast 


文件 4-2 text2. txt 


Hadoop MefReduce 
MapReduoe Spark 


根据 MapReduce 编程 模型 ,那么 单词 计数 的 实现 过 程 ,如 图 4-5 所 示 。 


EE 
ee 


<k1, v1> <k2, v2> <k3, v3> 
图 4-5 词 频 统计 过 程 
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在 图 4-5 中 ,首先 ,MapReduce 通过 默认 组 件 TextInputFormat 将 待 处 理 的 数据 文件 
(如 textl. txt 和 text2. txt) ,把 每 一 行 的 数据 都 转变 为 二 key,value 二 键 值 对 (其 中 ,对 应 key 
为 偏 移 量 , value 为 这 一 行 的 文本 内 容 ); 其 次 ,调用 map() 方 法 ,将 单词 进行 切割 并 进行 计 
数 , 输 出 键 值 对 作为 Reduce 阶段 的 输入 键 值 对 ;最 后 ,调用 reduce() 方 法 将 单词 汇总 、 排 序 
后 ,通过 TextOutputFormat 组 件 输 出 到 结果 文件 中 。 


4.2 MapReduce 工作 原理 


前 面 介绍 了 MapReduce 的 编程 模型 ,了 解 了 MapReduce 框架 主要 是 由 Map 和 Reduce 
两 个 阶段 来 实现 计算 的 ,那么 这 两 个 阶段 内 部 是 如 何 协同 工作 的 呢 ? 下 面 来 揭秘 
MapReduce 的 工作 原理 。 


4.2.1 MapReduce 工作 过 程 
MapReduce 编程 模型 开发 简单 且 功能 强大 ,专门 为 并 行 处 理 大 规模 数据 量 而 设计 , 接 
下 来 ,通过 一 张 图 来 描述 MapReduce 的 工作 过 程 ,如 图 4-6 所 示 。 


<KILVI> Map 上 <K2,V2> Group >K2,{V2, "ug <K3,V3> 
a 


EE 
EEC 


图 4-6 MapReduce 工作 过 程 


在 图 4-6 中 ,MapReduce 的 工作 流程 大 致 可 以 分 为 5 步 , 具 体 如 下 : 
1. 分 片 、 格 式 化 数据 源 


输入 Map 阶段 的 数据 源 ,必须 经 过 分 片 和 格式 化 操作 。 其 中 : 

。 分 片 操作 : 指 的 是 将 源 文件 划分 为 大 小 相等 的 小 数据 块 (Hadoop 2. x 中 默认 
128MB) ,也 就 是 分 片 (split), Hadoop 会 为 每 一 个 分 片 构建 一 个 Map 任务 ,并 由 该 
任务 运行 自 定义 的 mapO 〇 0 函数 ,从 而 处 理 分 片 里 的 每 一 条 记录 ; 

。 格式 化 操作 : 将 划分 好 的 分 片 (split) 格 式 化 为 键 值 对 二 key,value 二 形式 的 数据 ,其 
中 ,key 代表 偏 移 量 ,value 代表 每 一 行内 容 。 
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2. 执行 MapTask 


每 个 Map 任务 都 有 一 个 内 存 缓冲 区 (缓冲 区 大 小 100MB) ,输入 的 分 片 (split) 数 据 经 过 
Map 任务 处 理 后 的 中 间 结 果 会 写 入 内 存 缓冲 区 中 。 如 果 写 入 的 数据 达到 内 存 缓冲 的 阅 值 
(80MB) ,会 启动 一 个 线程 将 内 存 中 的 溢出 数据 写 入 磁盘 ,同时 不 影响 map 中 间 结 果 继 续 写 
入 缓冲 区 。 在 溢 写 过 程 中 ,MapReduce 框架 会 对 key 进行 排序 ,如 果 中 间 结 果 比 较 大 ,会 形 
成 多 个 溢 写 文件 ,最 后 的 缓冲 区 数据 也 会 全 部 溢 写 人 磁盘 形成 一 个 溢 写 文件 ,如 果 是 多 个 涪 
写 文件 , 则 最 后 合并 所 有 的 溢 写 文件 为 一 个 文件 。 


3. 执行 Shuffle 过 程 


MapReduce 工作 过 程 中 , Map 阶段 处 理 的 数据 如 何 传 递 给 Reduce 阶段 ,这 是 
MapReduce 框架 中 关键 的 一 个 过 程 ,这 个 过 程 叫 作 Shuffle。Shuffle 会 将 MapTask 输出 的 
处 理 结果 数据 分 发 给 ReduceTask, 并 在 分 发 的 过 程 中 ,对 数据 按 key 进行 分 区 和 排序 。 关 
于 Shuffle 过 程 的 具体 机 制 , 详 见 4. 2.4 节 。 


4. 执行 ReduceTask 


输入 ReduceTask 的 数据 流 是 二 key, {value list} 二 形式 ,用 户 可 以 自 定 义 reduce() 方 法 
进行 逻辑 处 理 , 最 终 以 二 key,value 二 的 形式 输出 。 


5. 写 入 文件 

MapReduce 框架 会 自动 把 ReduceTask 生成 的 二 key, value 二 传人 OutputFormat 的 
write 方法 ,实现 文件 的 写 人 操作 。 
4.2.2 MapTask 工作 原理 


MapTask 作为 MapReduce 工作 流程 的 前 半 部 分 , 它 主要 经 历 了 5 个 阶段 ,分 别 是 Read 
阶段 ,Map 阶段 .Collect 阶段 ,Spill 阶段 和 Combine 阶段 ,如 图 4-7 所 示 。 


Memory Buffer 


Sort 
[Combine] 
[Compress] 


Partition 
Collect 


InputSplit 


NX A 
> Y Yr Y Y A Wr 
Read Map Collect Spill Combine 


图 4-7 MapTask 工作 原理 
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关于 MapTask 这 5 个 阶段 的 相关 介绍 如 下 : 

(1) Read 阶段 : MapTask 通过 用 户 编 写 的 RecordReader, 从 输入 的 InputSplit 中 解析 
出 一 个 个 key/value。 

(2) Map 阶段 : 将 解析 出 的 key/value 交 给 用 户 编写 的 map() 函 数 处 理 , 并 产生 一 系列 
新 的 key/value。 

(3) Collect 阶段 : 在 用 户 编写 的 map() 函数 中 ,数据 处 理 完成 后 ,一 般 会 调用 
outputCollector. collect() 输 出 结果 ,在 该 函数 内 部 , 它 会 将 生成 的 key/value 分 片 (通过 调 
用 partitioner) ,并 写 人 一 个 环形 内 存 缓冲 区 中 。 

(4) Spill 阶段 : 即 “ 溢 写 ”, 当 环形 缓冲 区 满 后 , MapReduce 会 将 数据 写 到 本 地 磁盘 上 ， 
生成 一 个 临时 文件 。 需 要 注意 的 是 ,将 数据 写 人 本 地 磁盘 前 , 先 要 对 数据 进行 一 次 本 地 排 
序 , 并 在 必要 时 对 数据 进行 合并 、 压 缩 等 操作 。 

(5) Combine 阶段 : 当 所 有 数据 处 理 完成 以 后 , MapTask 会 对 所 有 临时 文件 进行 一 次 
合并 ,以 确保 最 终 只 会 生成 一 个 数据 文件 。 


4.2.3 ReduceTask 工作 原理 


ReduceTask 的 工作 过 程 主要 经 历 了 5 个 阶段 ,分别 是 Copy 阶段 ,Merge 阶段 .Sort 阶 
段 、. Reduce 阶段 和 Write 阶段 ,如 图 4-8 所 示 。 


x 


2 三 < 
Copy Merge Sort Reduce Write 


图 4-8 ”ReduceTask 工作 原理 


下 面 针 对 ReduceTask 工作 过 程 的 5 个 阶段 进行 介绍 : 

(1) Copy 阶段 : Reduce 会 从 各 个 MapTask 上 远程 复制 一 片 数 据 , 并 针对 某 一 片 数 据 ， 
如 果 其 大 小 超过 一 定 阔 值 , 则 写 到 磁盘 上 ,否则 直接 放 到 内 存 中 。 

(2) Merge 阶段 : 在 远程 复制 数据 的 同时 ,ReduceTask 会 启动 两 个 后 台 线 程 , 分 别 对 内 
存 和 磁盘 上 的 文件 进行 合并 ,以 防止 内 存 使 用 过 多 或 者 磁盘 文件 过 多 。 

(3) Sort 阶段 : 用 户 编写 reduce( ) 方 法 输入 数据 是 按 key 进行 聚集 的 一 组 数据 。 为 了 
将 key 相同 的 数据 聚 在 一 起 ,Hadoop 采用 了 基于 排序 的 策略 。 由 于 各 个 MapTask 已 经 实 
现 对 自己 的 处 理 结果 进行 了 局 部 排序 .因此 ,ReduceTask 只 需 对 所 有 数据 进行 一 次 归并 排 
序 即 可 。 
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(4) Reduce 阶段 : 对 排序 后 的 键 值 对 调用 reduce() 方 法 , 键 相等 的 键 值 对 调用 一 次 
reduce() 方 法 ,每 次 调用 会 产生 零 个 或 者 多 个 键 值 对 ,最 后 把 这 些 输出 的 键 值 对 写 入 到 
HDFS 中 。 

(5) Write 阶段 : reduce() 函数 将 计算 结果 写 到 HDFS 上 。 


4.2.4 Shuffle 工作 原理 


Shuffle 是 MapReduce 的 核心 , 它 用 来 确保 每 个 Reducer 的 输入 都 是 按键 排序 的 。 它 
的 性 能 高 低 直 接 决 定 了 整个 MapReduce 程序 的 性 能 高 低 。 接 下 来 ,通过 一 个 图 来 描述 
Shuffle 过 程 ,具体 如 图 4-9 所 示 。 


复制 阶段 排序 阶段 Reduce 阶 自 
分 区 、 排 序 和 磁盘 分 割 复制 ………| 一 | >. 
环形 内 存 时 下 合并 “3 闻 国 汪 和 
缓冲 区 和 必 a 
> 合 及 
放 ” 磋 盘 二 2 
合 并 时 
Map 端 Reduce 端 
其 他 各 自 全 其 他 各 自 
对 应 的 Map 从 对 应 的 Reduce 


图 4-9 Shuffle 过 程 


在 图 4-9 中 ,Map 和 Reduce 阶段 都 涉及 了 Shuffle 机 制 , 接 下 来 ,分 别 进行 分 析 , 具 体 
如 下 : 


1. Map 阶段 


(1) MapTask 处 理 的 结果 会 暂且 放 和 一 个 内 存 缓冲 区 中 (该 缓冲 区 默认 大 小 是 
100MB) , 当 缓 冲 区 快要 溢出 时 (默认 达到 缓冲 区 大 小 的 80%) ,会 在 本 地 文件 系统 创建 一 个 
溢出 文件 ,将 该 缓冲 区 的 数据 写 入 这 个 文件 。 

(2) 写 人 磁盘 之 前 ,线程 会 根据 reduceTask 的 数量 ,将 数据 分 区 ,一 个 Reduce 任务 对 
应 一 个 分 区 的 数据 。 这 样 做 的 目的 是 为 了 避免 有 些 reduce 任务 分 配 到 大 量 数据 ,而 有 些 
reduce 任务 分 到 很 少 的 数据 ,甚至 没有 分 到 数据 的 尴 众 局 面 。 

(3) 分 完 数据 后 ,会 对 每 个 分 区 的 数据 进行 排序 ,如 果 此 时 设置 了 Combiner, 将 排序 后 
的 结果 进行 Combine 操作 ,这 样 做 的 目的 是 尽 可 能 少 地 执行 数据 写 人 磁盘 的 操作 。 

(4) 当 Map 任务 输出 最 后 一 个 记录 时 ,可 能 有 很 多 溢出 文件 ,这 时 需要 将 这 些 文件 合 
并 ,合并 的 过 程 中 会 不 断 地 进行 排序 和 Combine 操作 ,其 目的 有 两 个 : 一 是 尽量 减少 每 次 写 
人 磁盘 的 数据 量 ;二 是 尽量 减少 下 一 复制 阶段 网 络 传输 的 数据 量 。 最 后 合并 成 了 一 个 已 分 
区 且 已 排序 的 文件 。 
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(5) 将 分 区 中 的 数据 复制 给 对 应 的 Reduce 任务 。 
2. Reduce 阶段 


(1) Reduce 会 接收 到 不 同 map 任务 传 来 的 数据 ,并 且 每 个 map 传 来 的 数据 都 是 有 序 
的 。 如 果 Reduce 阶段 接收 的 数据 量 相当 小 , 则 直接 存储 在 内 存 中 ,如 果 数 据 量 超过 了 该 组 
冲 区 大 小 的 一 定 比 例 , 则 对 数据 合并 后 溢 写 到 磁盘 中 。 

(2) 随 着 溢 写 文件 的 增多 ,后 台 线程 会 将 它们 合并 成 一 个 更 大 的 有 序 的 文件 ,这 样 做 是 
为 了 给 后 面 的 合并 节省 时 间 。 

(3) 合并 的 过 程 中 会 产生 许多 的 中 间 文 件 ( 写 人 磁盘 了 ) ,但 MapReduce 会 让 写 入 磁盘 的 
数据 尽 可 能 地 少 ,并 且 最 后 一 次 合并 的 结果 并 没有 写 人 磁盘 ,而 是 直接 输入 到 reduce 函数 。 


4.3 MapReduce 编程 组 件 


如 果 要 编写 一 个 MapReduce 程序 ,那么 需要 借助 MapReduce 提供 的 一 些 编程 组 件 来 
实现 。 下 面 , 针 对 MapReduce 编程 常见 的 组 件 进行 介绍 。 


4.3.1 InputFormat 组 件 


InputFormat 主要 用 于 描述 输入 数据 的 格式 , 它 提供 以 下 两 个 功能 。 

。 数据 切 分 : 按照 某 个 策略 将 输入 数据 切 分 成 若干 个 分 片 (split) ,以 便 确定 MapTask 
个 数 以 及 对 应 的 分 片 (split) 。 

。 为 Mapper 提供 输入 数据 : 给 定 某 个 分 片 (split) ,将 其 解析 成 一 个 一 个 的 key/value 
键 值 对 。 

Hadoop 自 带 了 一 个 InputFormat 接口 ,该 接口 的 定义 代码 如 下 所 示 : 


prblic abstract class InputFommat<K, Ww { 
) throws ICExosption, Interruptedexosption; 
Public abstract ReoordReader <K,V> createReoordReader (Irput split split, 
TaskattemptContext oontext 
) throws ICExosption, Interrptedexoeption; 
和 
从 上 述 代 码 可 以 看 出 ,InputFormat 接口 定义 了 getSplits() 和 createRecordReader() 两 
个 方法 ,其 中 ,getSplits() 方 法 负责 将 文件 切 分 为 多 个 分 片 C(split) ,createRecordReader() 方 
法 负责 创建 RecordReader 对 象 , 用 来 从 分 片 中 读 取 数据 。 下 面 ,主要 对 getSplits() 方 法 进 
行 介绍 。 
getSplits() 方 法 主要 实现 了 逻辑 切片 机 制 。 其 中 ,切片 的 大 小 splitSize 是 由 3 个 值 确 
定 的 , 即 minSize .maxSize 和 blockSize。 
。 minSize: splitSize 的 最 小 值 ,由 参数 mapred. min. split. size 确定 ,可 在 mapred-site 
. xml 中 进行 配置 ,默认 为 1MB。 
。 maxSize: splitSize 的 最 大 值 ,由 参数 mapreduce. jobtracker. split. metainfo. maxsize 
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确定 ,可 在 mapred-site . xml 中 进行 设置 ,默认 值 为 10MB。 
。 blockSize: HDFS 中 文件 存储 块 的 大 小 ,由 参数 dfs. block. size 确定 ,可 在 hdf-site 
. xml 中 进行 修改 ,默认 为 128MB。 


4.3.2 Mapper 组 件 


MapReduce 程序 会 根据 输入 的 文件 产生 多 个 map 任务 。Hadoop 提供 的 Mapper 类 是 
实现 Map 任务 的 一 个 抽象 基 类 ,该 基 类 提供 了 一 个 map() 方 法 ,默认 情况 下 ,Mapper 类 中 
的 map() 方 法 是 没有 做 任何 处 理 的 。 

如 果 想 自 定义 map() 方 法 ,只 需要 继承 Mapper 类 并 重 写 map() 方 法 即 可 。 接 下 来 ,以 
词 频 统计 为 例 , 自 定义 一 个 map() 方 法 .具体 代码 如 文件 4-3 所 示 。 

文件 4-3 WordCountMapper. java 


4.3.3 ”Reducer 组 件 


Map 过 程 输出 的 键 值 对 ,将 由 Reducer 组 件 进行 合并 处 理 。Hadoop 提供 了 一 个 抽象 
类 Reducer', 该 类 的 定义 代码 如 下 所 示 : 
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上 述 代 码 中 , 当 用 户 的 应 用 程序 调用 Reducer 类 时 ,会 直接 调用 Reducer 类 里 面 的 run() 方 
法 ,该 方法 中 定义 了 setup() ,reduce() .cleanup() 三 个 方法 的 执行 顺序 : setup->reduce->cleanup。 

默认 情况 下 ,setup() 和 cleanup() 方 法 内 部 不 做 任何 处 理 , 也 就 是 说 ,reduce() 方 法 是 处 
理 数据 的 核心 方法 ,该 方法 接收 Map 阶段 输出 的 键 值 对 数据 ,对 传 入 的 键 值 对 数据 进行 处 
理 , 并 产生 最 终 的 某 种 形式 的 结果 输出 。 

值得 一 提 的 是 ,如 果 reduce() 方 法 不 符合 应 用 要 求 时 ,可 以 尝试 在 setup() 和 cleanup() 方 
法 中 添加 代码 满足 应 用 要 求 ,setup() 方 法 一 般 会 在 reduce( ) 方 法 之 前 执行 ,可 以 在 setup() 方 
法 中 做 一 些 初始 化 工作 ,如 任务 的 一 些 配置 信息 。cleanup() 方 法 一 般 会 在 reduce() 方 法 之 
后 执行 ,可 以 在 cleanup() 方 法 中 做 一 些 结尾 清理 的 工作 ,如 资源 释放 等 。 

如 果 想 自 定义 reduce() 方 法 ,只 需要 继承 Reducer 类 并 重 写 reduce() 方 法 即 可 。 接 下 
来 ,以 词 频 统 计 为 例 , 自 定义 一 个 reduce() 方 法 ,具体 代码 如 文件 4-4 所 示 。 

文件 4-4 WordCountReducer. java 
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5 public class WordcountReducer extends Fedncer< Text, IntWritable, 
Text, IntWritable> { 


7 override 

8 ”Protected void redhce (Text key, Iterable< IntWritabley valuey 

9 Reducer< Text, mtWritable, Text, IntWritable> .Context 

10 context) throws ICExceptian，InterruptedExcepticn { 
还 /定义 一 个 计数 器 

2 int count= 07 

13 // 访 历 一 组 迭代 器 ,把 每 一 个 数量 1 累加 起 来 就 构成 了 单词 的 总 次 数 
14 for (IntWritable jw : value) { 

5 Count +=iw.get (); 

16 

好 context.write (key, new IntWritable (count))7 

18 下 

19} 


4.3.4 Partitioner 组 件 


Partitioner 组 件 可 以 让 Map 对 key 进行 分 区 ,从 而 可 以 根据 不 同 的 key 分 发 到 不 同 的 
Reduce 中 去 处 理 , 其 目的 就 是 将 key 均匀 分 布 在 ReduceTask 上 。Hadoop 自 带 了 一 个 默 
认 的 分 区 类 HashPartitioner, 它 继承 了 Partitioner 类 ,并 提供 了 一 个 getPartition 方法 ,其 
定义 如 下 所 示 。 


Public abstract class Partitioner< KEY, VALLE> { 
public abstract int getpartition (KEY key, 
VALLE valve, int nmpartitions); 
} 


如 果 想 自 定义 一 个 Partitioner 组 件 ,需要 继承 Partitioner 类 并 重 写 getPartition() 方 
法 。 在 重 写 getPartition() 方 法 中 ,通常 的 做 法 是 使 用 hash 函数 对 文件 数量 进行 分 区 , 即 通 
过 hash 操作 ,获得 一 个 非 负 整数 的 hash 码 , 然 后 用 当前 作业 的 reduce 节点 数 进行 取 模 运 
算 , 从 而 实现 数据 均匀 分 布 在 ReduceTask 的 目的 。 


4.3.5 Combiner 组 件 
在 Map 阶段 输出 可 能 会 产生 大 量 相同 的 数据 ,例如 过 hello,1 二 二 hello,1 二 …, 势 必 
会 降低 Reduce 聚合 阶段 的 执行 效率 。Combiner 组 件 的 作用 就 是 对 Map 阶段 的 输出 的 重 


复数 据 先 做 一 次 合并 计算 ,然后 把 新 的 (key ,value) 作 为 Reduce 阶段 的 输入 。 图 4-10 描述 
的 就 是 Combiner 组 件 对 Map 的 合并 操作 。 


<Hello:file3.txt,1> 
Combiner 


<Hello, file3.txt:1> 
<MapReduce:file3.txt:2> 
<bye:file3.txt:1> 


<bye:file3.txt,1 
<MapReduce:file3.txt, 


图 4-10 ”Combiner 组 件 的 合并 操作 
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Combiner 组 件 是 MapReduce 程序 中 的 一 种 重要 的 组 件 , 如 果 想 自 定 义 Combiner, 需 
要 继承 Reducer 类 ,并 且 重 写 reduce() 方 法 。 接 下 来 ,针对 词 频 统计 案例 编写 一 个 
Combiner 组 件 ,演示 如 何 创建 和 使 用 Combiner 组 件 ,具体 代码 如 文件 4-5 所 示 。 

文件 4-5 WordCountCombiner. java 


文件 4-5 是 自 定义 Combiner 类 , 它 的 作用 就 是 将 key 相同 的 单词 汇总 (这 与 
WordCountReducer 类 的 reduce() 方 法 相同 ,也 可 以 直接 指定 WordCountReducer 作为 
Combiner 类 ) ,另外 还 需要 在 主 运行 类 中 为 Job 设置 Combiner 组 件 即 可 ,具体 代码 如 下 : 


小 提示 : 执行 MapReduce 程序 ,添加 与 不 添加 Combiner 结果 是 一 致 的 。 通 俗 地 讲 ,无 
论调 用 多 少 次 Combiner,Reduce 的 输出 结果 都 是 一 样 的 ,因为 Combiner 组 件 不 允许 改变 
业务 逻辑 。 


4.3.6 _ OutputFormat 组 件 


OutputFormat 是 一 个 用 于 描述 MapReduce 程序 输出 格式 和 规范 的 抽象 类 ,该 类 定义 
了 3 种 方法 ,具体 代码 如 下 : 
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上 述 代码 中 ,getRecordWriter ( ) 方法 用 于 返回 一 个 RecordWriter 的 实例 ， 
checkOutputSpecs() 方 法 用 于 检测 任务 输出 规范 是 否 有 效 ,getOutputCommiter() 方 法 负责 
输出 被 正确 提交 。 


4.4 MapReduce 运行 模式 


MapReduce 程序 的 运行 模式 主要 有 如 下 两 种 。 

(1) 本 地 运行 模式 : 在 当前 的 开发 环境 模拟 MapReduce 执行 环境 ,处 理 的 数据 及 输出 
结果 在 本 地 操作 系统 。 

(2) 集群 运行 模式 : 把 MapReduce 程序 打 成 一 个 jar 包 , 提 交 至 YARN 集群 上 去 运行 
任务 。 由 于 YARN 集群 负责 资源 管理 和 任务 调度 ,程序 会 被 框架 分 发 到 集群 中 的 节点 上 并 
发 地 执行 ,因此 处 理 的 数据 和 输出 结果 都 在 HDFS 中 。 

集群 运行 模式 只 需要 将 MapReduce 程序 打 成 jar 包 上 传 至 集群 即 可 ,比较 简单 ,这 里 不 
再 袭 述 。 下 面 以 词 频 统计 为 例 , 讲 解 如 何 将 MapReduce 程序 设置 为 在 本 地 运行 模式 。 

在 MapReduce 程序 中 ,除了 要 实现 Mapper( 代 码 见 4. 3. 2 节 的 WordCountMapper. java 文 
件 ) 和 Reduce( 代 码 见 4.3. 3 节 的 WordCountReducer. java 文件 ) 外 ,还 需要 一 个 Driver 类 
提交 程序 和 具体 代码 ,如 文件 4-6 所 示 。 

文件 4-6 WordCountDriver. java 


jnmport org.apache.hadoop.f5.Path; 
jnmport org.apache.hadbop.io. mtWritable; 
inmport org.apache.hadbop.io.Text; 
import org.apache.hadoop.mepreduoe. Jcb; 
piblic class WordcountDriver { 
Public static void main (String{] args) throws Exception { 
// 通 过 Tb 来 封装 本 次 取 的 相关 信息 
Configuration conf- new Configuraticn 07 
/配置 了 运行 模式 ,使 用 local 表示 本 地 模式 ,可 以 省 略 
Conf .set ("mepreduce. framework.name", mccalm7y 
Jrb wcjdo= Jcb.getInstance (onf);} 
/| 指定 ]R Jcb jar 包 运行 主 类 
Wcjdb.setJarByclass (WordoountDriver.class); 
/| 指定 本 次 中 所 有 的 Mapper Reducer 类 
Wcjab.setMepperclass WordcountMapper.class)7 
wjdb.setRedncerclass brdpountReducer.class)7 
// 设 置业 务 逻辑 Mpper 类 的 输出 ley 和 valne 的 数据 类 型 
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wcjdb.setMapoutput FeyClass (Text.class)7 
Wojdb.setMapoutputValueclass (IntWritable.class); 

// 设 置业 务 逻 辑 Reducer 类 的 输出 key 和 value 的 数据 类 型 
wejdb.setoutput KeyClass (Text .class); 
Wojdb.setoutputValueclass (IntWritable.class); 

// 使 用 本 地 模式 指定 要 处 理 的 数据 所 在 的 位 置 

FileIrput omat..setTrput Paths (wcjcb, "D: /nr/input"); 

// 使 用 本 地 模式 指定 处 理 完成 之 后 的 结果 所 保存 的 位 置 
Fileoutput omat .setoutput Path (wcjcb, new Path ("D: /r/output”") ); 
/| 提交 程序 并 且 监 控 打印 程序 执行 情况 

boolean res=wcjdb.waitForompletion (true); 

System.exit (res ? 0 : 1D); 
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} 


在 文件 4-6 中 , 往 Configuration 对 象 中 添加 “mapreduce. framework. name 一 local” 参 
数 , 表 示 程 序 为 本 地 运行 模式 ,实际 上 在 hadoop-mapreduce-client-core-2. 7. 4. jar 包 下 面 的 
mapred-default. xml 配置 文件 中 ,默认 指定 使 用 本 地 运行 模式 ,因此 mapreduce. 
framework. name 一 local 配置 也 可 以 省 略 ;同时 ,还 需要 指定 本 地 操作 系统 源 文件 目录 路 径 
和 结果 输出 的 路 径 。 当 程序 执行 完毕 后 ,就 可 以 在 本 地 系统 的 指定 输出 文件 目录 查看 执行 
结果 了 。 和 输出 的 结果 ,如 图 4-11 所 示 。 


Bf D\mr\output\part-r-00000 - Notepad+ + [Administrator] =- j 

文件 (F) 病 往 (5) 搜索 (S) 视图 (V) 宽 码 (N) 十 高 必 ， 设置 (1) 工具 (0) 去 (M) 运行 (R) 

播 件 (p) 窗口 W) ? x 
» 


0o 轨 国 司 55 全 | 者 狂人 | PD Cl 的 知 | 忆 *| 岂 加 | 志 1 国 


Hadoop 2 
Hello 3 
MapReduce 2 
spark 1 


World 1 
itcast 1 


图 4-11 词 频 案例 的 输出 结果 


小 提示 : 在 使 用 本 地 运行 模式 执行 wordcount 案例 时 ,即使 配置 了 Windows 平台 的 
Hadoop, 运 行 时 仍 报 如 下 错误 : 


[了 ET CE Er IET EY .:E] 
terminoted» WordC ourtbriner Uave Appication] Dovoy dt LAO-151 Won ow ene (01SAFAF 0 下 Ri) 

number of splits:1 

Submitting tokens for job: job_local2369984 e001 

INFO - Cleaning up the staping area file:/tmp/hadoop-admin/mapred/staging/admin2360984/. stapging/ job local2369984 8891 

Exception in thread "main” java.1ang.UnsatisfiedLinkError{ org.apache.hadoop. i0.nativeio: Native1OBWindows. accessotl java71ang7 tring;T)7] 


at org.apache. hadoop. io.nativeio. NativeIO$Nindows.access(Nativel0. ja 
at org.apache.hadoop.fs.FileUtil. canRead(FileUtil, java:977) 

at org.apache.hadoop .util.DiskChecker .checkAccessByFileMethods(DiskChecker。java:187) 
at org.apachehadoop util-DiskChecker .checkDirAccess(DiskChecker。java174) 

at org-apache-hadoop-util.DiskChecker-checkDir(DiskChecker.java:l98) 

at org.apache.hadoop.fs.LocalDirAllocator$AllocatorperContext.confChanged(LocalDirAllocator., java: 285) 

at org.apache.hadoop-fs.LocalDirAllocatorgAllocatorPerContext.getLocalPathForWirite(LocalDirAllocator.java:344) 
at org.apache.hadoop.fs.LocalDirAllocator .getLocalpathForWrite(LocalDirAllocator. java:150) 


09) 


解决 办 法 : 根据 错误 提示 和 网 上 资料 的 提示 ,需要 修改 org. apache. hadoop. io. nativeio 
包 下 的 NativeIO 类 的 access() 方 法 ,将 返回 值 直 接 设 为 true, 即 : 
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ptiblic static boolean acoess (String path，RccessRight desirednccess) 
throws IOException { 
/rebmm access0(path， desiredncoess.accessRight())7 
rebum true; 


4.5 MapReduce 性 能 优化 策略 


使 用 Hadoop 进行 大 数据 运算 , 当 数 据 量 极 大 时 ,那么 对 MapReduce 性 能 的 调 优 重要 
性 不 言 而 喻 ,尤其 是 Shuffle 过 程 中 的 参数 配置 对 作业 的 总 执行 时 间 影响 特别 大 。 下 面 总 
结 一 些 和 MapReduce 相关 的 性 能 调 优 方法 ,主要 从 5 个 方面 考虑 : 数据 输入 、Map 阶段 、 
Reduce 阶段 .Shuffle 阶段 和 其 他 调 优 属性 。 


1. 数据 输入 


在 执行 MapReduce 任务 前 ,将 小 文件 进行 合并 ,大 量 的 小 文件 会 产生 大 量 的 map 任 
务 , 增 大 map 任务 装载 的 次 数 ,而 任务 的 装载 比较 耗 时 ,从 而 导致 MapReduce 运行 速度 较 
慢 。 因 此 采用 CombineTextInputFormat 来 作为 输入 ,解决 输入 端 大 量 的 小 文件 场景 。 


2. Map 阶段 


(1) 减少 溢 写 (spill) 次 数 : 通过 调整 io. sort. mb 及 sort. spill. percent 参数 值 , 增 大 触 
发 spill 的 内 存 上 限 ,减少 spill 次 数 ,从 而 减少 磁盘 LI/O。 

(2) 减少 合并 (merge) 次 数 : 通过 调整 io. sort. factor 参数 , 增 大 merge 的 文件 数目 , 减 
少 merge 的 次 数 , 从 而 缩短 mr 处 理 时间 。 

(3) 在 map 之 后 ,不 影响 业务 逻辑 前 提 下 ,先进 行 combine 处 理 ,减少 I/O。 

上 面 提 到 的 那些 属性 参数 ,都 是 位 于 mapred-default. xml 文件 中 ,这 些 属性 参数 的 调 优 
方式 如 表 4-1 所 示 。 


表 4-1 Map 阶段 调 优 属性 


属性 名 称 类 型 | 默认 值 说 明 

配置 排序 map 输出 时 使 用 的 内 存 缓冲 区 的 大 小 ， 
默认 100MB, 实 际 开发 中 可 以 设置 大 一 些 

map 输出 内 存 缓冲 和 用 来 开始 磁盘 溢出 写 过 程 的 


记录 边界 索引 的 阔 值 , 即 最 大 使 用 环形 缓冲 内 存 
的 阔 值 。 一 般 默认 是 80%。 也 可 以 直接 设置 


mapreduce. task. io. sort. mb int 100 


mapreduce. map. sort. spill. percent | float | 0.80 


为 100% 
mapreduce. task. io. sort. factor int 10 择 序 文件 时 ;二 次 最 儿 合 并 的 流 闭 :实际 开发 中 可 
ii 将 这 个 值 设 置 为 100 
mapreduce. task. min. num. spills. 运行 Combiner 时 ,所 需 的 最 少 溢出 文件 数 ( 如 果 


for. combine : 已 指定 Combiner) 
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3. Reduce 阶段 


(1) 合理 设置 map 和 reduce 数 : 两 个 都 不 能 设置 太 少 , 也 不 能 设置 太 多 。 太 少 ,会 导致 
task 等 待 ,延长 处 理 时 间 ; 太 多 ,会 导致 map 和 reduce 任务 间 竞 争 资源 ,造成 处 理 超时 等 
错误 。 

(2) 设置 map 和 reduce 共存 : 调整 slowstart. completedmaps 参数 ,使 map 运行 到 一 
定 程 度 后 ,reduce 也 开始 运行 ,减少 reduce 的 等 待 时 间 。 

(3) 规避 使 用 reduce: 因为 reduce 在 用 于 连接 数据 集 的 时 候 将 会 产生 大 量 的 网 络 
消耗 。 通 过 将 MapReduce 参数 setNumReduceTasks 设置 为 0 来 创建 一 个 只 有 map 的 
作业 。 

(4) 合理 设置 reduce 端的 buffer: 默认 情况 下 ,数据 达到 一 个 阔 值 的 时 候 ,buffer 中 的 
数据 就 会 写 人 磁盘 ,然后 reduce 会 从 磁盘 中 获得 所 有 的 数据 。 也 就 是 说 ,buffer 和 reduce 
是 没有 直接 关联 的 ,中 间 多 一 个 写 磁 盘 一 读 磁 盘 的 过 程 ,既然 有 这 个 弊端 ,那么 就 可 以 通过 
参数 来 配置 ,使 得 buffer 中 的 一 部 分 数据 可 以 直接 输送 到 reduce, 从 而 减少 IO 开销。 这 
样 一 来 ,设置 buffer 需要 内 存 , 读 取 数 据 需 要 内 存 ,reduce 计算 也 要 内 存 , 所 以 要 根据 作业 
的 运行 情况 进行 调整 。 

上 面 提 到 的 属性 参数 ,都 是 位 于 mapred-default. xml 文件 中 ,这 些 属性 参数 的 调 优 方式 
如 表 4-2 所 示 。 


表 4-2 Reduce 阶段 的 调 优 属性 


属性 名 称 类 型 | 默认 值 说 有 明 


当 map task 在 执行 到 5% 时 ,就 开始 为 reduce 申请 资源 。 
float | 0.05 | 开始 执行 reduce 操作 ,reduce 可 以 开始 复制 map 结果 数 
据 和 做 reduce shuffle 操作 


在 reduce 过 程 ,内 存 中 保存 map 输出 的 空间 占 整个 堆 空 
float | 0.0 间 的 比例 。 如 果 reducer 需要 的 内 存 较 少 ,可 以 增加 这 个 
值 来 最 小 化 访问 磁盘 的 次 数 


mapreduce. job. reduce. 
slowstart. completedmaps 


mapred. job. reduce. input. 
buffer. percent 


4. Shuffle 阶段 


Shuffle 阶段 的 调 优 就 是 给 Shuffle 过 程 尽量 多 地 提供 内 存 空 间 , 以 防止 出 现 内 存 溢出 
现象 ,可 以 由 参数 mapred. child. java. opts 来 设置 ,任务 节点 上 的 内 存 大 小 应 尽量 大 。 
上 面 提 到 的 属性 参数 ,都 是 位 于 mapred-site. xml 文件 中 ,这 些 属性 参数 的 调 优 方式 如 
表 4-3 所 示 。 
表 4-3 ”Shuffle 阶段 的 调 优 属性 


属性 名 称 类 型 | 默认 值 说 有明 


当 用 户 在 不 设置 该 值 情况 下 ,会 以 最 大 1GB jvm 
heap size 启动 map task, 有 可 能 导致 内 存 溢出 ， 
所 以 最 简单 的 做 法 就 是 设 大 参数 ,一 般 设置 为 
-Xmx1024m 


mapred. map. child. java. opts Int | -Xmx200m 
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续 表 


属性 名 称 类 型 | ”默认 值 说 有 明 


当 用 户 在 不 设置 该 值 情况 下 ,会 以 最 大 1GB jvm 
heap size 启动 Reduce task, 也 有 可 能 导致 内 存 溢 
出 ,所 以 最 简单 的 做 法 就 是 设 大 参数 ,一 般 设置 
为 -Xmx1024m 


mapred. reduce. child. java. opts | Int | -Xmx200m 


5. 其 他 调 优 属性 


除 此 之 外 ,MapReduce 还 有 一 些 基本 的 资源 属性 的 配置 ,这 些 配置 的 相关 参数 都 位 于 
mapred-default. xml 文件 中 ,可 以 合理 配置 这 些 属性 提高 MapReduce 性 能 , 表 4-4 列举 了 部 
分 调 优 属性 。 

表 4-4 MapReduce 资源 调 优 属性 
属性 名 称 类 型 | 默认 值 说 ”有明 
一 个 Map Task 可 使 用 的 资源 上 限 。 如 果 Map Task 


mapreduce. map. memory. mb int 1024 实际 使 用 的 资源 量 超过 该 值 , 则 会 被 强制 杀 死 
mapreduce. reduce. memory. mb int 1024 一 个 Reduce Task 可 使 用 的 资源 上 限 。 如 果 Reduce 
光 Task 实际 使 用 的 资源 量 超过 该 值 , 则 会 被 强制 杀 死 
mapreduce. map. cpu. vcores int 1 每 个 Map Task 可 使 用 的 最 多 cpu core 数目 
mapreduce. reduce. cpu. vcores int 1 每 个 Reduce Task 可 使 用 的 最 多 cpu core 数目 


mapreduce. reduce. shuffle. 


int 5 每 个 reduce 去 map 中 拿 数据 的 并 行 数 


parallelcopies 


每 个 Map Task 最 大 重 试 次 数 , 一 旦 重 试 参数 超过 该 
值 , 则 认为 Map Task 运行 失败 

每 个 Reduce Task 最 大 重 试 次 数 ,一 旦 重 试 参 数 超过 
该 值 , 则 认为 Map Task 运行 失败 


mapreduce. map. maxattempts int 


mapreduce. reduce. maxattempts int 4 


4.6 MapReduce 经 典 案 例 一 一 倒 排 索引 


4.6.1 案例 分 析 
1. 倒 排 索引 介绍 


倒 排 索 引 是 文档 检索 系统 中 最 常用 的 数据 结构 ,被 广泛 应 用 于 全 文 搜索 引擎 。 倒 排 索 
引 主 要 用 来 存储 某 个 单词 (或 词组 ) 在 一 组 文档 中 的 存储 位 置 的 映射 ,提供 了 可 以 根据 内 容 
来 查找 文档 的 方式 ,而 不 是 根据 文档 来 确定 内 容 , 因 此 称 为 倒 排 索引 (Inverted Index)。 带 
有 倒 排 索引 的 文件 称 为 倒 排 索引 文件 ,简称 倒 排 文件 (Inverted File) 。 

通常 情况 下 , 倒 排 文件 由 一 个 单词 (或 词组 ) 和 相关 联 的 文档 列表 组 成 ,如 图 4-12 所 示 。 

从 图 4-12 可 以 看 出 ,建立 倒 排 索引 的 目的 是 为 了 更 加 方便 地 搜索 。 例 如 ,单词 1 出 现 
在 文档 1 文档 4 文档 13 等 文档 中 ;单词 2 出 现在 文档 2、 文 档 6、 文 档 10 等 文档 中 ;而 单词 
3 出 现在 文档 3、 文 档 7 等 文档 中 。 
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倒 排 文 件 
单词 1 “文档 1、 文 档 4、 文 档 13 … 
单词 2 * 文档 2、 文 档 6、 文 档 10 … 
单词 3 ,文档 3、 文 档 7 … 
图 4-12 倒 排 文件 


在 实际 应 用 中 ,还 需要 给 每 个 文档 添加 一 个 权 值 , 用 来 指出 每 个 文档 与 搜索 内 容 的 相关 
度 。 最 常用 的 是 使 用 词 频 作为 权重 , 即 记录 单词 或 词组 在 文档 中 出 现 的 次 数 ,用 户 在 搜索 相 
关 文档 时 ,就 会 把 权重 高 的 推荐 给 客户 。 下 面 以 英文 单词 倒 排 索 引 为 例 , 如 图 4-13 所 示 。 


加 权 倒 排 文 件 


hadoop 十 fle1.txt:1、file4.txt:2、file13.txt:1… 
hdfs file2.txt:1、 file6.txt:1、 file10. txt:5… 


mapreduce | 一 一 fle5.txt:3、file7.txt:2… 


图 4-13 加 权 倒 排 索 引文 件 


从 图 4-13 可 以 看 出 ,加 权 倒 排 索引 文件 中 ,文件 每 一 行内 容 对 每 一 个 单词 进行 了 加 权 
索引 ,统计 出 单词 出 现 的 文档 和 次 数 。 例 如 索引 文件 中 的 第 一 行 ,表示 “hadoop” 这 个 单词 
在 文本 filel. txt 中 出 现 过 1 次 ,在 file4. txt 中 出 现 过 2 次 ,在 filel3. txt 中 出 现 过 1 次 。 


2. 案例 需求 及 分 析 


现 假设 有 3 个 源 文件 filel. txt、file2. txt 和 file3. txt, 需 要 使 用 倒 排 索引 的 方式 对 这 3 
个 源 文 件 内 容 实 现 倒 排 索引 ,并 将 最 后 的 倒 排 索引 文件 输出 ,整个 过 程 要 求实 现 如 下 转换 ， 
如 图 4-14 所 示 。 


倒 排 文件 


源 文件 MapReduce file1.txt:1.file2.txt:1;file3.txt:2 
is file1.txt:1; file2.txt:2 

simple file1.txt:1; file2.txt:1 

powerful file2.txt:1 


file1.txt=MapReduce is simple 实现 倒 排 索引 
file2.txt=MapReduce is powerful is simple 一 一 一 一 一 


file3.txt:Hello MapReduce bye MapReduce 


bye file3.txt:1 


Hello file3.txt:1 


图 4-14 倒 排 索引 文件 


接 下 来 ,根据 上 面 案 例 的 需求 结合 倒 排 索引 的 实现 ,对 该 倒 排 索引 案例 的 实现 进行 分 
析 , 具 体 如 下 。 


87 


88 梧 。 Hadoop 大 数据 技术 原理 与 应 用 


(1) 首先 使 用 默认 的 TextInputFormat 类 对 每 个 输入 文件 进行 处 理 , 得 到 文本 中 每 行 
的 偏 移 量 及 其 内 容 。Map 过 程 首先 分 析 输 入 的 二 key ,value 二 键 值 对 ,经 过 处 理 可 以 得 到 倒 
单词 .文档 名 称 和 词 频 , 如 图 4-15 所 示 。 


排 索引 中 需要 的 3 个 信息 : 


《0, "NapReduce is simple”> 


《0, "MapReduce is powerful is simple”> 


<0, “Hello NapReduce bye MapReduce”> 


Hap “MapReduce:filel. txt” list(1) 
一 “is:filel.txt” list (1) 
“simple:filel. txt” list (1) 
"NMapReduce:file2.txt list(1) 
Map “is:file2. txt” list (1, 1) 
“powerful:file2.txt” list(1) 
“simple:filel. txt” list (1) 
Nap “Hello:file3. txt” list (1) 
| "MapReduce:file3.txt” list(l,1) 
“bye:file3. txt” list (1) 


图 4-15 Map 阶段 数据 转换 过 程 


从 图 4-15 可 以 看 出 ,在 不 使 用 Hadoop 自 定义 数据 类 型 的 情况 下 ,需要 根据 情况 将 单 


词 与 文档 名 称 拼接 为 一 个 key( 如 “MapReduce:filel. txt”) ,将 词 频 作为 一 个 value。 


(2) 经 过 Map 阶段 数据 转换 后 ,同一 个 文档 中 相同 的 单词 会 出 现 多 个 的 情况 ,而 单纯 
依靠 后 续 Reduce 阶段 无 法 同时 完成 词 频 统计 和 生成 文档 列表 ,所 以 必须 增加 一 个 Combine 


阶段 , 先 完成 每 一 个 文档 的 词 频 统计 ,如 图 4-16 所 示 。 


“MapReduce:filel. txt” 
"is:filel.txt” 
"simple:filel. txt” 


list (1) 
list (1) 
list (1) 


“NMapReduce:file2, txt 


list (1) 


"bye:file3, txt” 


“is:file2.txt” ist(l, 1) 
“powerful:file2.txt” list(1) 
“simple:filel. txt” list (1) 
“Hello:file3. txt” list (1) 
"NapReduce:file3. txt” list(l, 1) 


list (1) 


Combine 


“NapReduce” 
wise 


“simple” 


“filel. txt:1 
"filel. txt:1” 
“人 


Combine 


Combine 


“MapReduce” 
is 
“powerful” 
“simple” 


“Hello” "file3. txt:1” 
“MapReduce” "file3. txt:2” 
“bye” "file3. txt:1” 


“file2. txt:1” 
“file2. txt:2" 
"Eile2. tatal” 
“filel. txt:1” 


图 4-16 ”Combine 阶段 数据 转换 过 程 


从 图 4-16 可 以 看 出 ,在 Reduce 阶段 ,根据 前 面 的 分 析 先 完成 每 一 个 文档 的 词 频 统计 ， 
然后 又 对 输入 的 二 key,value> 键 值 对 进行 了 重新 拆 装 ,将 单词 作为 key, 文 档 名 称 和 词 频 组 
成 一 个 value (如 “filel. txt: 1”)。 这 是 因为 ,如 果 直 接 将 词 频 统计 后 的 输出 数据 (如 
“MapReduce:filel. txt 1”) 作 为 下 一 阶段 Reduce 过 程 的 输入 ,那么 在 Shuffle 过 程 时 将 面临 
一 个 问题 : 所 有 具有 相同 单词 的 记录 应 该 交 由 同一 个 Reducer 处 理 , 但 当前 的 key 值 无 法 
保证 这 一 点 ,所 以 对 key 值 和 value 值 进行 重新 拆 装 。 这 样 做 的 好 处 是 可 以 利用 
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MapReduce 框架 默认 的 HashPartitioner 类 完成 Shuffle 过 程 ,将 相同 单词 的 所 有 记录 发 送 
给 同一 个 Reducer 进行 处 理 。 

(3) 经 过 上 述 两 个 阶段 的 处 理 后 ,Reduce 阶段 只 需 将 所 有 文件 中 相同 key 值 的 value 
值 进行 统计 ,并 组 合成 倒 排 索引 文件 所 需 的 格式 即 可 ,如 图 4-17 所 示 。 


“NapReduce” “filel. txt:1” 
“is” “filel. txt:1" 
“sinple” “filel.txt:1” 


“NMapReduce” “filel.txt:1:file2. txt:1:file3. txt:2° 
“MapReduce” "file2. txt:1” Koduoe 了 二 轴 “filel. txt:1:file2. txt:2” 
“is” “file2. txt:2” “simple” “filel. txt:3.file2. txt:1.file3. txt:2” 
“powerful” “file2,txt:1” “powerful” "file2, txt:1” 
“simple” "filel.txt:1"” “Hello” “file3. txt:1” 

"bye” “file3. txt:1” 


“Hello” “file3.txt:1” 
“MapReduce” “file3.txt:2“ 
“bye” "file3. txt:1" 


图 4-17 Reduce 数据 转换 思路 


从 图 4-17 可 以 看 出 ,在 Reduce 阶段 会 根据 所 有 文档 中 相同 key 进行 统计 ,同时 在 处 理 
过 程 中 结合 倒 排 索引 文件 的 格式 需求 就 可 以 生成 对 应 的 文件 。 

需要 说 明 的 是 ,创建 倒 排 索引 的 最 终 目 的 是 通过 单词 找到 对 应 的 文档 ,明确 思路 是 
MapReduce 程序 编写 的 重点 ,如 果 开发 者 在 不 了 解 人 手 阶 段 的 Map 数据 格式 如 何 设计 时 ， 
不 妨 考虑 从 Reduce 阶段 输出 的 数据 格式 反 向 推导 。 


4.6.2 案例 实现 


在 完成 对 倒 排 索引 的 相关 介绍 以 及 案例 实现 的 具体 分 析 后 , 接 下 来 通过 前 面 说 明 的 案 
例 分 析 步 骤 来 实现 具体 的 倒 排 索引 ,具体 实现 步 又 如 下 。 


1. Map 阶段 实现 


首先 ,使 用 Eclipse 开发 工具 打开 之 前 创建 的 Maven 项 目 HadoopDemo, 并 且 新 创建 
cn. itcast. mr, invertedIndex 包 , 在 该 路 径 下 编写 自 定义 Mapper 类 InvertedIndexMapper， 
如 文件 4-7 所 示 。 

文件 4-7 InvertedIndexMapper. java 


1 import java.io.IOExceptiony 

2 jnmport org.apache.commmons.lang.StringUtils， 

3 jmport arg.apache.hacbap.io.Iongaritabley 

4 inmport org.apache.hadbop.io.Texty 

5 import org.apache.hadoop.mapreduoe .Mapper; 

6 ”jimport org.apache.hadoop.mapreduoe.1ib.input.Filesplit; 

7 ”public class Invertedmdexepper extends Mapper< Langfritable, Text, 

8 Text, Text> { 

9 private static Text keyInfo=new Text0;  // 存 储 单词 和 文档 名 称 
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文件 4-7 代码 的 作用 是 ,将 文本 中 的 单词 按照 空格 进行 切割 ,并 以 冒号 拼接 ,单词 : 文 
档 名 称 ” 作 为 key, 单 词 次 数 作为 value, 都 以 文本 方式 输出 至 Combine 阶段 。 


2. Combine 阶段 实现 


接着 ,根据 Map 阶段 的 输出 结果 形式 ,在 cn. itcast. mr. InvertedIndex 包 下 , 自 定义 实 
现 Combine 阶段 的 类 InvertedIndexCombiner, 对 每 个 文档 的 单词 进行 词 频 统 计 , 如 文件 4-8 
所 示 。 

文件 4-8 InvertedIndexCombiner 
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文件 4-8 代码 的 作用 是 ,对 Map 阶段 的 单词 次 数 聚合 处 理 , 并 重新 设置 key 值 为 单词 ， 
value 值 由 文档 名 称 和 词 频 组 成 。 


3. Reduce 阶段 实现 


然后 ,根据 Combine 阶段 的 输出 结果 形式 ,同样 在 cn. itcast. mr. InvertedIndex 包 下 ， 
自 定义 Reducer 类 InvertedIndexMapper, 如 文件 4-9 所 示 。 
文件 4-9 InvertedIndexReducer. java 


文件 4-9 代码 的 作用 是 ,接收 Combine 阶段 输出 的 数据 ,并 最 终 案 例 倒 排 索引 文件 需求 
的 样式 ,将 单词 作为 key, 多 个 文档 名 称 和 词 频 连接 作为 value, 输 出 到 目标 目录 。 


4. Driver 程序 主 类 实现 


最 后 ,编写 MapReduce 程序 运行 主 类 InvertedIndexDriver, 如 文件 4-10 所 示 。 
文件 4-10 InvertedIndexDriver. java 
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6 import org.apache.hadpop maprednce.lib.input.FileTnputFommaty 


Public static void main(String[] args) throws IOExceptiony 
ClassNotFoundException，InterruptedExoepticn { 

Configuraticn omnf= new Configuraticn07 
Ib jdb= Tb.getInstanoe (oonf); 
jcb.setJarByClass (InvertedIndexDriver.class); 
jcb.setMapperclass (InvertedIndexMapper.class); 
jab.setcorbinerclass (InvertedIndexOmbiner.class); 
jcb.setReduoerClass (ImvertedIndexRedncer.class)7 
jab.setoutputFeyClass (Text.class)7 
jcb.setoutputvalueclass (Text .class); 
Filelrput Fomat..set rputPaths (jcb, 


/| 指定 处 理 完成 之 后 的 结果 所 保存 的 位 置 
Fileoutput omat .setoutput Path djcby 


// 向 YBN 集群 提交 这 个 jcb 
boolean res= jab.waitForcompletion(troe)> 
System.exit (res ? 0 :了 7 


BIRBRNNBSESSRGSSNES 


} 


new Path("D:\\ IrvertedImdex\ \input") ); 


Dew Path ("D:\ \ IrvertedIndex\ \output")); 


文件 4-10 代码 的 作用 是 ,设置 MapReduce 工作 任务 的 相关 参数 ,由 于 本 次 演示 的 数据 
量 较 小 ,为 了 方便 ,快速 进行 案例 演示 ,本 案例 采用 了 本 地 运行 模式 ,对 指定 的 本 地 D:\\ 
InvertedIndex\\input 目录 下 的 源 文件 (需要 提前 准备 ) 实 现 倒 排 索引 ,并 将 结果 输入 到 本 地 


D:\\InvertedIndex\\output 目录 下 ,设置 完毕 后 ,运行 程序 即 可 。 


5. 效果 测试 


为 了 保证 MapReduce 程序 正常 执行 ,需要 先 在 本 地 D:\\InvertedIndex\\input 目录 下 
创建 filel. txt file2. txt 和 file3. txt, 内 容 按 照 图 4-14 所 示 ( 即 filel. txt 输入 *MapReduce is 
simple”, file2. txt 输入 “MapReduce is powerful is simple”, file3. txt 输入 “Hello 


MapReduce bye MapReduce”) 。 


接着 ,执行 MapReduce 程序 的 程序 入 口 InvertedIndexDriver 类 ,正常 执行 完成 后 ， 


在 指定 的 D:\\InvertedIndex\\output 下 生成 结果 文件 ,如 图 4-18 所 示 。 


了 区 Di\InvertedIndex\output\part-r-00000 - Notepad++ [Administrator] 


[= /© mE | 


? 


文件 (月 ”编辑 (E) 利索 (5S) 视图 (V) 编 吗 (N) 语言 (L) 设置 () 工具 (0) 去 (M) 运行 (R) 插件 (P) 窜 口 (W) 


o。 昌 四 司 2 全 | 省 用 入 | D3 C1 全 知 | | 思 加 | 二 1 国 回国 同 扬 ” 


LS 


EP]| 


Hello file3.txt:1; 


bye file3.txt 


is filel.txt 


powerful ~ file2.txt:1; 
simple file2.txt:1;filel.txt:1; 


:165 lines In:1 Col:1 Sel:0|0 Unix (LA) 


BuapReduce file3.txt:2;filel.txt:1;file2.txt:1; 


UTF-8 


INS 


图 4-18 加 权 倒 排 索引 


会 
会 
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至 此 , 倒 排 索引 的 案例 已 实现 ,从 图 4-18 可 以 清楚 看 出 各 个 单词 所 对 应 的 文档 以 及 出 
现 次 数 。 


4.7 MapReduce 经 典 案 例 一 一 数据 去 重 


4.7.1 案例 分 析 


数据 去 重 主要 是 为 了 掌握 利用 并 行 化 思想 来 对 数据 进行 有 意义 的 筛选 ,数据 去 重 指 去 
除 重 复数 据 的 操作 。 在 大 数据 开发 中 ,统计 大 数据 集 上 的 多 种 数据 指标 ,这 些 复杂 的 任务 数 
据 都 会 涉及 数据 去 重 。 

现 假设 有 数据 文件 filel. txt 和 file2. txt, 内 容 分 别 如 文件 4-11 和 文件 4-12 所 示 。 

文件 4-11 filel. txt 


2018-3-1a 
2018- 3-2b 
2018-3-3c 
2018-3-4d 
2018- 3-5a 
2018- 3- 6b 
2018-3-7c 
2018-3-3c 


文件 4-12 file2. txt 


2018-3-1b 
2018- 3-2a 
2018- 3- 3b 
2018-3 4d 
2018- 3-5a 
2018-3-6c 
2018-3-7d 
2018-3-3c 


上 述 文件 filel. txt 本 身 包含 重复 数据 ,并 且 与 file2. txt 同样 出 现 重 复数 据 , 现 要 求 使 
用 Hadoop 大 数据 相关 技术 对 这 两 个 文件 进行 去 重 操作 ,并 最 终 将 结果 汇总 到 一 个 文件 中 。 

根据 上 面 的 案例 需求 ,下 面 对 该 数据 去 重 案例 的 实现 进行 分 析 , 具 体 如 下 。 

(1) 首先 ,可 以 编写 MapReduce 程序 ,在 Map 阶段 采用 Hadoop 默认 的 作业 输入 方式 
(TextInputFormat) 之 后 ,将 key 设置 为 需要 去 重 的 数据 ,而 输出 的 value 都 可 以 设置 为 空 。 

(2) 接着 ,在 Reduce 阶段 ,不 需要 考虑 每 一 个 key 有 和 多少 个 value, 可 以 直接 将 输入 的 
key 复制 为 输出 的 key, 而 输出 的 value 同样 可 以 设置 为 空 ,这 样 就 会 使 用 MapReduce 默认 
机 制 对 key( 也 就 是 文件 中 的 每 行内 容 ) 自 动 去 重 。 


4.7.2 案例 实现 
在 完成 对 数据 去 重 的 相关 介绍 以 及 案例 实现 的 具体 分 析 后 , 接 下 来 就 通过 前 面 说 明 的 
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案例 分 析 步 又 来 实现 具体 的 数据 去 重 ,具体 实现 步骤 如 下 。 
1. Map 阶段 实现 


使 用 Eclipse 开发 工具 打开 之 前 创建 的 Maven 项 目 HadoopDemo, 并 且 新 创建 cn. 
itcast. mr. dedup 包 , 在 该 路 径 下 编写 自 定义 Mapper 类 DedupMapper, 如 文件 4-13 所 示 。 
文件 4-13 DedupMapper. java 


文件 4-13 中 代码 的 作用 是 为 了 读 取 数据 集 文件 将 TextInputFormat 默认 组 件 解析 的 
类 似 二 0,2018-3-1 a 二 键 值 对 修改 为 二 2018-3-1 a,null 二 。 


2. Reduce 阶段 实现 


根据 Map 阶段 的 输出 结果 形式 ,同样 在 cn. itcast. mr. dedup 包 下 , 自 定义 Reducer 类 
DedupReducer, 如 文件 4-14 所 示 。 
文件 4-14 DedupReducer. java 
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文件 4-14 代码 的 作用 仅仅 是 接受 Map 阶段 传递 来 的 数据 ,根据 Shuffle 工作 原理 , 键 
值 key 相同 的 数据 就 会 被 合并 ,因此 输出 数据 就 不 会 出 现 重复 数据 了 。 


3. Driver 程序 主 类 实现 


编写 MapReduce 程序 运行 主 类 DedupDriver, 如 文件 4-15 所 示 。 
文件 4-15 DedupDriver. java 


文件 4-15 代码 的 作用 是 设置 MapReduce 工作 任务 的 相关 参数 。 由 于 本 次 演示 的 数据 
量 较 小 ,为 了 方便 \ 快 速 地 进行 案例 演示 ,本 案例 采用 了 本 地 运行 模式 ,对 指定 的 本 地 D:\\ 
Dedup\\input 目录 下 的 源 文件 (需要 提前 准备 ) 实 现 倒 排 索引 ,并 将 结果 输入 到 本 地 D:\\ 
Dedup\\output 目录 下 ,设置 完毕 后 ,运行 程序 即 可 。 


4. 效果 测试 


为 了 保证 MapReduce 程序 正常 执行 ,需要 先 在 本 地 D:\\Dedup\\input 目录 下 创建 文 
件 4-11 和 文件 4-12(filel. txt 和 file2. txt) 。 

接着 ,执行 MapReduce 程序 的 程序 人 口 DedupDriver 类 ,正常 执行 完成 后 ,会 在 指定 的 
D:\\Dedup\\output 下 生成 结果 文件 ,如 图 4-19 所 示 。 
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[BB papedup\outputpart-r00000 - Notepad+ + [Administrator] EI Xx 
文件 (F) ”编辑 (E) 搜索 (S$) “视图 (V) 编码 (N) 语言 () 设置 (1 工具 (0) 宏 (M) 运行 (R) 插件 (P) 北口 W) ? x 
o 归 目 六 加 | 省 独 太 | PD C1 的 知 | 忆 *| 驻 忆 | 志 1 国 晶 国有 崩 晶 全 | 回回 国 加 ” 
目 part-r-o0000] 


1 2018-3-1a 


Norn length: 132 lines :13 ln:1 Col:1 Sel:0|0 Unix (LP) UTF-8 INS 


图 4-19 数据 去 重 


从 图 4-19 可 以 看 出 ,通过 Hadoop 的 MapReduce 程序 完成 了 对 数据 的 去 重 操作 ,达到 
了 案例 的 需求 。 


4.8 MapReduce 经 典 案 例 TopN 


4.8.1 案例 分 析 


TopN 分 析 法 是 指 从 研究 对 象 中 按照 某 一 个 指标 进行 倒序 或 正 序 排 列 , 取 其 中 所 需 的 
NN 个 数据 ,并 对 这 N 个 数据 进行 重点 分 析 的 方法 。 

现 假设 有 数据 文件 num. txt ,内容 如 文件 4-16 所 示 。 

文件 4-16 num. txt 


10387651294 
L211M4152 
19181316 


现 要 求 使 用 MapReduce 技术 提取 上 述 文本 中 最 大 的 5 个 数据 ,并 将 最 终结 果 汇 总 到 一 
个 文件 中 。 

下 面 ,就 根据 上 面 的 案例 需求 ,来 对 该 文件 数据 的 TopN 实现 进行 分 析 , 具 体 如 下 。 

(1) 要 想 提取 文本 中 5 个 最 大 的 数据 ,首先 考虑 到 MapReduce 分 区 只 能 设置 1 个 , 即 
ReduceTask 个 数 一 定 只 有 一 个 。 需 要 提取 TopN 是 指 的 全 局 的 前 N 条 数据 ,那么 不 管 中 
间 有 几 个 Map 和 Reduce, 最 终 只 能 有 一 个 用 来 汇总 数据 。 

(2) 在 Map 阶段 ,可 以 使 用 TreeMap 数据 结构 保存 TopN 的 数据 ,TreeMap 是 一 个 有 
序 的 key-value 集合 ,默认 会 根据 其 键 的 自然 顺序 进行 排序 ,也 可 根据 创建 映射 时 提供 的 
Comparator 进行 排序 ,其 firstKey() 方 法 用 于 返回 当前 集合 最 小 值 的 键 。 

另外 ,以 往 的 Mapper 都 是 处 理 一 行 数 据 之 后 就 使 用 context. write() 方 法 输出 ,而 目前 
需要 所 有 数据 把 数据 存放 到 TreeMap 后 再 进行 写 人 ,所 以 可 以 把 context. write() 方 法 放 在 
cleanup() 里 执行 ,cleanup() 方 法 就 是 整个 MapTask 执行 完毕 后 才 执行 的 一 个 方法 。 
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(3) 在 Reduce 阶段 ,将 Map 阶段 输出 数据 进行 汇总 , 选 出 其 中 的 TopN 数据 , 即 可 满 
足 需求 。 这 里 需要 注意 的 是 ,TreeMap 默认 采取 正 序 排列 ,需求 是 提取 5 个 最 大 的 数据 , 因 
此 要 重 写 Comparator 类 的 排序 方法 进行 倒序 排序 。 


4.8.2 案例 实现 


在 完成 对 TopN 的 相关 介绍 以 及 案例 实现 的 具体 分 析 后 , 接 下 来 就 通过 前 面 说 明 的 案 
例 分 析 步 骤 来 实现 具体 的 TopN 案例 ,具体 实现 步骤 如 下 。 


1. Map 阶段 实现 


使 用 Eclipse 开发 工具 打开 之 前 创建 的 Maven 项 目 HadoopDemo, 并 且 新 创建 cn. 
itcast. mr. topN 包 , 在 该 路 径 下 编写 自 定义 Mapper 类 TopNMapper, 如 文件 4-17 所 示 。 
文件 4-17 TopNMapper. java 
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文件 4-17 代码 的 作用 是 先 将 文件 中 的 每 行 数 据 进行 切割 提取 ,并 把 数据 保存 到 
TreeMap 中 ,判断 TreeMap 是 否 大 于 5, 如 果 大 于 5 就 需要 移 除 最 小 的 数据 。 由 于 数据 是 
逐 行 读 取 , 如 果 这 时 就 向 外 写 数据 ,那么 TreeMap 就 保存 了 每 一 行 的 最 大 5 个 数 , 因 此 需要 
在 cleanup() 方 法 里 编写 context. write() 方 法 ,这 样 保 证 了 当前 MapTask 中 TreeMap 保存 
了 当前 文件 最 大 的 5 条 数据 后 ,再 输出 到 Reduce 阶段 。 


2. Reduce 阶段 实现 


根据 Map 阶段 的 输出 结果 形式 ,同样 在 cn. itcast. mr. topN 包 下 , 自 定义 Reducer 类 
TopNReducer, 如 文件 4-18 所 示 。 
文件 4-18 TopNReducer. java 


文件 4-18 中 的 代码 ,首先 编写 TreeMap 自 定义 排序 规则 , 当 需 求 取 最 大 值 时 ,只 需要 
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在 compare() 方 法 中 返回 正 数 即 可 满足 倒序 排列 ,reduce() 方 法 依然 是 要 满足 时 刻 判 断 
TreeMap 中 存放 数据 是 前 5 个 数 ,并 最 终 遍 历 输 出 最 大 的 5 个 数 。 
3. Driver 程序 主 类 实现 


编写 MapReduce 程序 运行 主 类 TopNDriver, 如 文件 4-19 所 示 。 
文件 4-19 TopNDriver. java 


本 案例 的 演示 同样 采用 了 本 地 运行 模式 ,对 指定 的 本 地 D:\\topN\\input 目录 下 的 源 
文件 (需要 提前 准备 ) 实 现 TopN 分 析 , 得 到 文件 中 最 大 的 5 个 数 ,并 将 结果 输入 到 本 地 
D:\\topN\\output 目录 下 ,设置 完毕 后 ,运行 程序 即 可 。 


4. 效果 测试 
为 了 保证 MapReduce 程序 正常 执行 .需要 先 在 本 地 D:\\topN\\input 目录 下 创建 文件 


4-16(num. txt) 。 


接着 ,执行 MapReduce 程序 的 程序 人 口 TopNDriver 类 .正常 执行 完成 后 ,会 在 指定 的 
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D:\\topN\\output 下 生成 结果 文件 ,如 图 4-20 所 示 。 


图 DAtopN\output\part-r-00000 - Notepad+ + [Administrato 2 el 
文件 (月 ”编辑 (E) 搜索 (S) “视图 (V) 编码 (N) 语言 (L) 设置 (1 工具 (0) 宏 (M) 运行 (R) 插件 (P) 窗 DW) ? 4 
o 思 目 全 /全 | 省 儿 六 | 9 C1 的 知 |**| 思 色 | 志 和 国 昌 国内 已 全 | 加 


length:15 lines:6 tn:1 Col:1 Sel:0|0 Unix (LA) 


图 4-20 ”加权 倒 排 索引 


从 图 4-20 可 以 看 出 ,通过 Hadoop 的 MapReduce 程序 提取 出 文件 中 Top 5 个 数据 内 
容 , 达 到 了 案例 的 需求 。 


4.9 ”本章 小 结 


本 章 主 要 讲解 了 MapReduce 程序 的 相关 知识 。 首 先 介 绍 什么 是 MapReduce 以 及 
MapReduce 的 工作 原理 ;接着 ,对 MapReduce 编程 中 涉及 的 相关 组 件 进行 了 详细 说 明 ; 最 
后 通过 几 种 常见 的 MapReduce 经 典 案 例 ,使 读者 更 好 地 掌握 其 编程 框架 以 及 编程 思想 。 通 
过 本 章 的 学 习 , 初 学 者 可 以 了 解 MapReduce 计算 框架 的 思想 并 且 能 够 使 用 MapReduce 解 
决 实际 问题 。 


4.10 课 后 习题 


一 、 填 空 题 

1. 在 MapReduce 中 ， 阶段 负责 将 任务 分 解 ， 阶段 将 任务 合并 。 

2，MapReduce 工作 流程 分 为 、 和 

3，Partitioner 组 件 目的 是 。 

二 、 判断 题 

1. Map 阶段 处 理 数据 时 ,是 按照 key 的 哈 希 值 与 ReduceTask 数量 取 模 进行 分 区 的 
规则 。 人 

2. 分 区 数量 是 ReduceTask 的 数量 。 ( ) 


3. 在 MapReduce 程序 中 ,必须 开发 Map 和 Reduce 相应 的 业务 代码 才能 执行 程序 。 
( ) 


三 、 选择 题 


1. MapReduce 适用 于 下 列 哪 个 选项 ? ( ) 


A. 任意 应 用 程序 
B. 任意 可 以 在 Windows Server 2008 上 的 应 用 程序 
C. 可 以 串 行 处 理 的 应 用 程序 
D. 可 以 并 行 处 理 的 应 用 程序 
2. 下 面 关 于 MapReduce 模型 中 Map 函数 与 Reduce 函数 的 描述 正确 的 是 ?( ) 
A. 一 个 Map 函数 就 是 对 一 部 分 原始 数据 进行 指定 的 操作 
B. 一 个 Map 操作 就 是 对 每 个 Reduce 所 产生 的 一 部 分 中 间 结 果 进 行 合 并 操作 
C. Map 与 Map 之 间 不 是 相互 独立 的 
D. Reducee 与 Reduce 之 间 不 是 相互 独立 的 
3. MapReduce 自 定义 排序 规则 需要 重 写 下 列 哪 项 方法 ? 〈 ) 


A. readFields() B. compareTo() 
C. map() D. reduce() 
四 、 简 答题 


1. 简 述 HDFS Block 与 MapReduce split 之 间 的 联系 。 
2. 简 述 Shuffle 工作 流程 。 


五 、 编 程 题 


1. 现 有 数据 文本 文件 number. txt, 内 容 如 下 所 示 ,请 编写 MapReduce 程序 将 该 文本 文 
件 中 重复 的 数据 删除 。 


2. 现 有 一 组 数据 ,内 容 如 下 所 示 ,请 编写 MapReduce 程序 提取 出 最 大 10 个 数 , 并 倒序 


输出 。 
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学 习 目 标 

。 了 解 Zookeeper 的 概念 和 特性 。 

。 理解 Zookeeper 数据 模型 。 

。 掌握 Zookeeper 的 Watch 机 制 和 选举 机 制 。 

。 掌握 Zookeeper 的 集群 部 署 。 

。 掌握 Zookeeper 的 Shell 操作 和 Java API 操作 。 
。 熟悉 Zookeeper 的 应 用 场景 。 


构建 分 布 式 系统 并 不 容易 ,然而 ,用 户 日 常 所 使 用 的 应 用 程序 ,如 淘宝 、 支 付 宝 等 大 多 是 
基于 分 布 式 系统 ,分 布 式 系统 是 建立 在 网 络 之 上 的 软件 系统 ,具有 高 度 的 内 聚 性 和 透明 性 ， 
在 短 时 间 内 依赖 于 分 布 式 系统 的 现状 依旧 不 会 改变 。 

Apache Zookeeper 旨 在 减轻 构建 健壮 的 分 布 式 系统 的 服务 , 它 是 基于 分 布 式 计算 的 核 
心 概念 而 设计 的 ,主要 目的 是 给 开发 人 员 提 供 一 套 容易 理解 和 开发 的 接口 ,从 而 简化 分 布 式 
系统 构建 的 服务 。 本 章 对 Zookeeper 的 简介 、Zookeeper 的 数据 模型 .Zookeeper 的 机 制 、 
Zookeeper 集群 的 部 署 .Zookeeper 的 操作 以 及 Zookeeper 的 典型 应 用 场景 进行 详细 讲解 。 


5.1 初 识 Zookeeper 


5.1.1 Zookeeper 简介 


Zookeeper 起 源 于 雅虎 研究 院 的 一 个 研究 小 组 。 当 时 研究 人 员 发 现 ,在 雅虎 内 部 很 多 
大 型 系统 基本 都 需要 依赖 一 个 类 似 的 系统 来 进行 分 布 式 协调 ,但 是 这 些 系 统 往往 都 存在 分 
布 式 单 点 问题 。 所 谓 单 点 问题 , 即 在 整个 分 布 式 系统 中 ,如 果 某 个 独立 功能 的 程序 或 角色 只 
运行 在 某 一 台 服 务 器 上 时 ,这 个 节点 就 被 称 为 单 点 。 一 旦 这 台 服 务 器 宕 机 ,整个 分 布 式 系统 
将 无 法 正常 运行 ,这 种 现象 被 称 为 单 点 故障 。 所 以 ,雅虎 的 开发 人 员 试 图 开发 一 个 通用 的 无 
单 点 问题 的 分 布 式 协调 框架 ,以 便 让 开发 人 员 将 精力 集中 在 处 理 业 务 逻 辑 上 。 而 
Zookeeper 正好 是 要 用 来 进行 分 布 式 服务 的 协调 。 

Zookeeper 是 一 个 分 布 式 协调 服务 的 开源 框架 , 它 是 由 Google 的 Chubby 开源 实现 。 
Zookeeper 主要 用 来 解决 分 布 式 集群 中 应 用 系统 的 一 致 性 问题 ,如 如 何 避 免 同 时 操作 同一 
数据 造成 脏 读 的 问题 等 。 

Zookeeper 本 质 上 是 一 个 分 布 式 的 小 文件 存储 系统 ,提供 基于 类 似 于 文件 系统 的 目录 
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树 方式 的 数据 存储 ,并 且 可 以 对 树 中 的 节点 进行 有 效 管理 。 从 而 用 来 维护 和 监控 存储 的 数 
据 的 状态 变化 。 通 过 监控 这 些 数据 状态 的 变化 ,从 而 达到 基于 数据 的 集群 管理 。 如 统一 命 
名 服务 .分布 式 配置 管理 .分布 式 消息 队列 、 分 布 式 锁 、 分 布 式 协调 等 功能 。 


5.1.2 Zookeeper 的 特性 


Zookeeper 具有 全 局 数据 一 致 性 可靠 性 顺序 性 .原子 性 以 及 实时 性 ,可 以 说 
Zookeeper 的 其 他 特性 都 是 为 满足 Zookeeper 全 局 数据 一 致 性 这 一 特性 。 具 体 介绍 如 下 : 


1. 全 局 数据 一 致 性 


每 个 服务 器 都 保存 一 份 相同 的 数据 副本 ,客户 端 连接 到 集群 的 任意 节点 上 ,看 到 的 目录 
树 都 是 一 致 的 (也 就 是 数据 都 是 一 致 的 ) ,这 也 是 Zookeeper 最 重要 的 特征 。 


2. 可 靠 性 


如 果 消 息 (对 目录 结构 的 增删 改 查 ) 被 其 中 一 台 服 务 器 接收 ,那么 将 被 所 有 的 服务 器 
接收 。 


3. 顺序 性 


Zookeeper 顺序 性 主要 分 为 全 局 有 序 和 偏 序 两 种 ,其 中 全 局 有 序 是 指 如 果 在 一 台 服务 
器 上 消息 A 在 消息 B 前 发 布 , 则 在 所 有 服务 器 上 消息 A 都 将 在 消息 B 前 被 发 布 ; 偏 序 是 指 
如 果 一 个 消息 B 在 消息 A 后 被 同一 个 发 送 者 发 布 ,A 必 将 排 在 B 前 面 。 无 论 全 局 有 序 还 是 
偏 序 , 其 目的 都 是 为 了 保证 Zookeeper 全 局 数据 一 致 。 


4. 数据 更 新 原子 性 
一 次 数据 更 新 操作 要 么 成 功 (半数 以 上 节点 成 功 ) ,要么 失败 ,不 存在 中 间 状 态 。 
5. 实时 性 


Zookeeper 保证 客户 端 将 在 一 个 时 间 间 隔 范围 内 获得 服务 器 的 更 新 信息 ,或 者 服务 器 
失效 的 信息 。 


5.1.3 Zookeeper 集群 角色 


Zookeeper 对 外 提供 一 个 类 似 于 文件 系统 的 层次 化 的 数据 存储 服务 ,为 了 保证 整个 
Zookeeper 集群 的 容错 性 和 高 性 能 ,每 一 个 Zookeeper 集群 都 是 由 多 台 服 务 器 节点 (Server) 
组 成 ,这 些 节 点 通过 复制 保证 各 个 服务 器 节点 之 间 的 数据 一 致 。 只 要 这 些 服务 器 节点 过 半 
数 可 用 ,那么 整个 Zookeeper 集群 就 可 用 。 下 面 我 们 来 学 习 Zookeeper 的 集群 架构 ,如 
图 5-1 所 示 。 

从 图 5-1 可 以 看 出 ,Zookeeper 集群 是 一 个 主 从 集群 , 它 一 般 是 由 一 个 Leader( 领 导 者 ) 
和 多 个 Follower( 跟 随 者 ) 组 成 。 此 外 ,针对 访问 量 比较 大 的 Zookeeper 集群 ,还 可 新 增 
Observer( 观 察 者 ) 。Zookeeper 集群 中 的 三 种 角色 各 司 其 职 ,共同 完成 分 布 式 协调 服务 。 
下 面 我 们 针对 Zookeeper 集群 中 的 三 种 角色 进行 简单 介绍 。 


103 


Hadoop 大 数据 技术 原理 与 应 用 


Follower 


Client Client Client Client Client Client 
图 5-1 Zookeeper 集群 架构 图 


1. Leader 


它 是 Zookeeper 集群 工作 的 核心 ,也 是 事务 性 请 求 ( 写 操作 ) 的 唯一 调度 和 处 理 者 , 它 保 
证 集群 事务 处 理 的 顺序 性 ,同时 负责 进行 投票 的 发 起 和 决议 ,以 及 更 新 系统 状态 。 


2. Follower 


它 负 责 处 理 客户 端的 非 事务 ( 读 操作 ) 请 求 ,如 果 接 收 到 客户 端 发 来 的 事务 性 请 求 , 则 会 
转发 给 Leader, 让 Leader 进行 处 理 , 同 时 还 负责 在 Leader 选举 过 程 中 参与 投票 。 


3. Observer 


它 负责 观察 Zookeeper 集群 的 最 新 状态 的 变化 ,并 且 将 这 些 状 态 进行 同步 。 对 于 非 事 
务 性 请 求 可 以 进行 独立 处 理 ; 对 于 事务 性 请 求 , 则 会 转发 给 Leader 服务 器 进行 处 理 。 它 不 
会 参与 任何 形式 的 投票 ,只 提供 非 事务 性 的 服务 ,通常 用 于 在 不 影响 集群 事务 处 理 能 力 的 前 
提 下 ,提升 集群 的 非 事务 处 理 能 力 (提高 集群 读 的 能 力 , 也 降低 了 集群 选 主 的 复杂 程度 ) 。 


5.2 数据 模型 


5.2.1 数据 存储 结构 


Zookeeper 中 数据 存储 的 结构 和 标准 文件 系统 
非常 类 似 , 拥 有 一 个 层次 的 命名 空间 ,也 是 使 用 斜 杠 
(/) 进 行 分 隔 ,两 者 都 是 采用 树 状 层次 结构 。 不 同 的 
是 ,标准 文件 系统 是 由 文件 夹 和 文件 来 组 成 的 树 ,而 
Zookeeper 是 由 什么 来 组 成 的 树 呢 ?下 面 我 们 来 看 
一 下 Zookeeper 数据 存储 结构 ,如 图 5-2 所 示 。 

从 图 5-2 可 知 :Zookeeper 是 由 节点 组 成 的 树 ， /appl/p_ 1 /appl/p 2 /appl/p 3 
树 中 的 每 个 节点 被 称 为 Znode。 每 个 节点 都 可 以 拥 图 5-2 ”Zookeeper 数据 模型 
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有 子 节点 。 每 一 个 Znode 默认 能 够 存储 1MB 的 数据 ,每 个 Znode 都 可 以 通过 其 路 径 唯一 
标识 ,如 图 5-2 中 第 三 层 的 第 一 个 Znode, 它 的 路 径 是 /app1/p_1。Zookeeper 数据 模型 中 的 
每 个 Znode 都 是 由 3 部 分 组 成 ,分 别 是 stat( 状 态 信 息 ,描述 该 Znode 的 版 本 ,权限 信息 等 组 
成 ) .data( 与 该 Znode 关联 的 数据 ) 和 children( 该 Znode 下 的 子 节点 ) 。 


5.2.2 Znode 的 类 型 


在 5.2. 1 节 中 ,我 们 初步 了 解 了 什么 是 Znode, 下 面 ,我 们 来 介绍 一 下 Znode 的 类 型 。 
节点 的 类 型 在 创建 时 被 指定 ,一 旦 创建 就 无 法 改变 。Znode 有 两 种 类 型 ,分 别 是 临时 节点 和 
永久 节点 。 

临时 节点 ,该 生命 周期 依赖 于 创建 它们 的 会 话 ,一 旦 会 话 结束 ,临时 节点 将 会 被 自动 删 
除 , 当 然 也 可 以 手动 删除 。 虽 然 每 个 临时 的 Znode 都 会 绑 定 到 一 个 客户 端 ,但 它们 对 所 有 
的 客户 端 还 是 可 见 的 。 另 外 ,需要 注意 的 是 临时 节点 不 允许 拥有 子 节点 。 

永久 节点 ,该 生命 周期 不 依赖 于 会 话 , 并 且 只 有 在 客户 端 显示 执行 删除 操作 的 时 候 , 它 
们 才能 被 删除 。 

由 于 Znode 的 序列 化 特性 ,在 创建 节点 时 ,用 户 可 以 请 求 在 该 Znode 的 路 径 结尾 添加 
一 个 不 断 增加 的 序列 号 ,序列 号 对 于 此 节点 的 父 节点 来 说 是 唯一 的 ,这 样 便 会 记录 每 个 子 节 
点 创建 的 先后 顺序 。 它 的 格式 为 *%010d”(10 位 数字 ,没有 数值 的 数位 用 0 补充 ,如 
0000000001) 。 当 计数 值 大 于 2 一 1 时 ,计数 器 将 会 溢出 。 这 样 便 会 存在 4 种 类 型 的 目录 
节点 ,分 别 对 应 如 下 。 

。 PERSISTENT: 永久 节点 ; 

。 EPHEMERAL: 临时 节点 ; 

。 PERSISTENT_SEQUENTIAL : 序列 化 永久 节点 ; 

。 EPHEMERAL_SEQUENTIAL: 序列 化 临时 节点 。 


5.2.3 Znode 的 属性 
每 个 Znode 都 包含 了 一 系列 的 属性 , 接 下 来 详细 讲解 Znode 的 属性 ,如 表 5-1 所 示 。 
表 5-1 Zookeeper 节点 属性 


属性 名 称 属性 描述 
czxid 节点 被 创建 的 Zxid 值 
ctime 节点 被 创建 的 时 间 
mzxid 节点 最 后 一 次 修改 的 Zxid 值 
mtime 节点 最 后 一 次 的 修改 时 间 
pZxid 与 该 节点 的 子 节 点 最 后 一 次 修改 的 Zxid 值 
cversion 子 节 点 被 修改 的 版 本 号 
dataVersion 数据 版 本 号 
aclVersion ACL 版 本 号 
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续 表 
属性 名 称 属性 描述 
ephemeralOwner 如 果 此 节点 为 临时 节点 ,那么 该 值 代表 这 个 节点 拥有 者 的 会 话 ID; 和 否则 值 为 0 
dataLength 节点 数据 域 长 度 
numChildren 节点 拥有 的 子 节点 个 数 


表 5-1 介绍 了 Znode 的 属性 ,对 于 Zookeeper 来 说 ,Znode 状态 改变 的 每 一 个 操作 都 将 
使 节点 接收 到 唯一 的 zxid(Zookeeper Transaction ID) 格 式 的 时 间 戳 ,并 且 这 个 时 间 惟 是 全 
局 有 序 的 ,通常 被 称 为 事物 ID ,通过 zxid, 可 以 确定 更 新 操作 的 先后 顺序 ,例如 ,如 果 zxid1 
小 于 zxid2 ,说 明 zxidl 操作 先 于 zxid2 发 生 。 


5.3 ”Zookeeper 的 Watch 机 制 


5.3.1 Watch 机 制 的 简介 


ZooKeeper 提供 了 分 布 式 数据 发 布 /订阅 功能 ,一 个 典型 的 发 布 /订阅 模型 系统 定义 了 
一 种 一 对 多 的 订阅 关系 ,能 让 多 个 订阅 者 同时 监听 某 一 个 主题 对 象 , 当 这 个 主题 对 象 自身 状 
态 变化 时 ,会 通知 所 有 订阅 者 ,使 他 们 能 够 做 出 相应 的 处 理 。 

在 ZooKeeper 中 ,引入 了 Watch 机 制 来 实现 这 种 分 布 式 的 通知 功能 。ZooKeeper 允许 
客户 端 向 服务 端 注册 一 个 Watch 监听 , 当 服务 端的 一 些 事件 触发 了 这 个 Watch ,那么 就 会 
向 指定 客户 端 发 送 一 个 事件 通知 ,来 实现 分 布 式 的 通知 功能 。 


5.3.2 Watch 机 制 的 特点 
1. 一 次 性 触发 


当 Watch 的 对 象 发 生 改 变 时 ,将 会 触发 此 对 象 上 Watch 所 对 应 的 事件 ,这 种 监听 是 一 
次 性 的 ,后 续 再 次 发 生 同 样 的 事件 ,也 不 会 再 次 触发 。 


2. 事件 封装 


Zookeeper 使 用 WatchedEvent 对 象 来 封装 服务 端 事件 并 传递 。 该 对 象 包含 了 每 个 事 
件 的 3 个 基本 属性 , 即 通知 状态 (keeperState) .事件 类 型 (EventType) 和 节点 路 径 Cpath) 。 


3. 异步 发 送 
Watch 的 通知 事件 是 从 服务 端 异步 发 送 到 客户 端的 。 
4. 先 注册 再 触发 


Zookeeper 中 的 Watch 机 制 , 必 须 由 客户 端 先 去 服务 端 注 册 监 听 , 这 样 才 会 触发 事件 的 
监听 ,并 通知 给 客户 端 。 
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5.3.3 Watch 机制 的 通知 状态 和 事件 类 型 


同一 个 事件 类 型 在 不 同 的 连接 状态 中 代表 的 含义 有 所 不 同 , 表 5-2 列举 了 常见 的 连接 
状态 和 事件 类 型 。 


表 5-2 ”Zookeeper 连接 状态 和 事件 类 型 


连接 状态 状态 含义 事件 类 型 事件 含义 
Disconnected 连接 失败 NodeCreated 节点 被 创建 
SyncConnected 连接 成 功 NodeDataChanged 节点 数据 变更 
AuthFailed 认证 失败 NodeChildrenChanged 子 节点 数据 变更 
Expired 会 话 过 期 NodeDeleted 节点 被 删除 


从 表 5-2 可 知 ,Zookeeper 常见 的 连接 状态 和 事件 类 型 分 别 有 4 种 ,具体 含义 如 下 。 

当 客户 端 断 开 连接 ,这 时 客户 端 和 服务 器 的 连接 就 是 Disconnected 状态 ,说 明 连 接 失 
败 ; 当 客户 端 和 服务 器 的 某 一 个 节点 建立 连接 ,并 完成 一 次 version .zxid 的 同步 ,这 时 客户 
端 和 服务 器 的 连接 状态 就 是 SyncConnected ,说 明 连 接 成 功 ; 当 Zookeeper 客户 端 连接 认证 
失败 ,这 时 客户 端 和 服务 器 的 连接 状态 就 是 AuthFailed, 说 明 认证 失败 ; 当 客 户 端 发 送 
Request 请 求 ,通知 服务 器 其 上 一 个 发 送 心跳 的 时 间 ,服务 器 收 到 这 个 请 求 后 ,通知 客户 端 
下 一 个 发 送 心跳 的 时 间 是 哪个 时 间 点 。 当 客户 端 时 间 戳 达到 最 后 一 个 发 送 心跳 的 时 间 ,而 
没有 收 到 服务 器 发 来 的 新 发 送 心 跳 的 时 间 , 即 认为 自己 下 线 , 这 时 客户 端 和 服务 器 的 连接 状 
态 就 是 Expired 状态 ,说 明 会 话 过 期 。 

当 节 点 被 创建 时 , NodeCreated 事件 被 触发 ; 当 节 点 的 数据 发 生变 更 时 ， 
NodeDataChanged 事件 被 触发 ; 当 节 点 的 直接 子 节点 被 创建 ,被 删除 、 子 节点 数据 发 生变 更 
时 ,NodeChildrentChanged 事件 被 触发 ; 当 节 点 被 删除 时 ,NodeDeleted 事件 被 触发 。 


5.4 Zookeeper 的 选举 机 制 


5.4.1 选举 机 制 的 简介 


Zookeeper 为 了 保证 各 节点 的 协同 工作 ,在 工作 时 需要 一 个 Leader 角色 ,而 Zookeeper 
默认 采用 FastLeaderElection 算法 , 且 投 票数 大 于 半数 则 胜出 的 机 制 , 再 介绍 选举 机 制 前 ， 
首先 了 解 选举 涉及 的 相关 概念 。 


1. 服务 器 ID 


这 是 在 配置 集群 时 设置 的 myid 参数 文件 , 且 参 数 分 别 表示 为 服务 器 1、 服 务 器 2 和 服 
务 器 3, 编 号 越 大 在 FastLeaderElection 算法 中 的 权重 越 大 。 


2. 选举 状态 


在 选举 过 程 中 ,Zookeeper 服务 器 有 4 种 状态 ,它们 分 别 为 竞选 状态 (LOOKING)、 随 从 
状态 (FOLLOWING ,同步 leader 状态 ,参与 投票 ) 、 观 察 状态 (OBSERVING, 同 步 leader 状 
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态 ,不 参与 投票 ) 和 领导 者 状态 (LEADING) 。 
3. 数据 ID 


这 是 服务 器 中 存放 的 最 新 数据 版 本 号 ,该 值 越 大 说 明 数 据 越 新 ,在 选举 过 程 中 数据 越 新 
权重 越 大 。 


4. 逻辑 时 钟 


通俗 地 讲 ,逻辑 时 钟 被 称 为 投票 次 数 ,同一 轮 投 票 过 程 中 的 逻辑 时 钟 值 是 相同 的 , 迎 辑 
时 钟 起 始 值 为 0, 每 投 完 一 次 票 , 这 个 数据 就 会 增加 。 然 后 ,与 接收 到 其 他 服务 器 返回 的 投 
票 信息 中 的 数值 相 比较 ,根据 不 同 的 值 做 出 不 同 的 判断 。 如 果 某 台 机 器 宕 机 ,那么 这 台 机 器 
不 会 参与 投票 ,因此 逻辑 时 钟 也 会 比 其 他 的 低 。 


5.4.2 选举 机 制 的 类 型 

Zookeeper 选举 机 制 有 两 种 类 型 ,分 别 为 全 新 集群 选举 和 非 全 新 集群 选举 ,下 面 分 别 对 
两 种 类 型 进行 详细 讲解 。 

1. 全 新 集群 选举 


全 新 集群 选举 是 新 搭建 起 来 的 ,没有 数据 ID 和 逻辑 时 钟 来 影响 集群 的 选举 。 假 设 , 目 
前 有 5 台 服 务 器 ,它们 的 编号 分 别 是 1 一 5 , 按 编号 依次 启动 Zookeeper 服务 。 下 面 来 讲解 全 
新 集群 选举 的 过 程 。 

步骤 1: 服务 器 1 启动 ,首先 ,会 给 自己 投票 ;其 次 ,发 投票 信息 ,由 于 其 他 机 器 还 没有 启 
动 所 以 它 无 法 接收 到 投票 的 反馈 信息 ,因此 服务 器 1 的 状态 一 直属 于 LOOKING 状态 。 

步骤 2: 服务 器 2 启动 ,首先 ,会 给 自己 投票 ;其 次 ,在 集群 中 启动 Zookeeper 服务 的 机 
器 发 起 投票 对 比 , 这 时 它 会 与 服务 器 1 交换 结果 .由 于 服务 器 2 的 编号 大 ,所 以 服务 器 2 胜 
出 ,此 时 服务 器 1 会 将 票 投 给 服务 器 2, 但 此 时 服务 器 2 的 投票 数 并 没有 大 于 集群 半数 (2 一 
5/2) ,所 以 两 个 服务 器 的 状态 依然 是 LOOKING 状态 。 

步骤 3: 服务 器 3 启动 ,首先 ,会 给 自己 投票 ;其 次 ,与 之 前 启动 的 服务 器 1 和 服务 器 2 
交换 信息 ,由 于 服务 器 3 的 编号 最 大 所 以 服务 器 3 胜出 ,那么 服务 器 1 和 2 会 将 票 投 给 服务 
器 3, 此 时 投票 数 正 好 大 于 半数 (3 之 5/2) ,所 以 服务 器 3 成 为 领导 者 状态 ,服务 器 1 和 2 成 
为 追随 者 状态 。 

步骤 4: 服务 器 4 启动 ,首先 ,给 自己 投票 ;其 次 ,与 之 前 启动 的 服务 器 1.2 和 3 交换 信 
息 , 尽 管 服务 器 4 的 编号 大 ,但 是 服务 器 3 已 经 胜出 。 所 以 服务 器 4 只 能 成 为 追随 者 状态 。 

步骤 5: 服务 器 5 启动 , 同 服务 器 4 一 样 , 均 成 为 追随 者 状态 。 


2. 非 全 新 集群 选举 


对 于 正常 运行 的 Zookeeper 集群 ,一 旦 中 途 有 服务 器 宕 机 , 则 需要 重新 选举 时 ,选举 的 
过 程 中 就 需要 引入 服务 器 ID 数据 ID 和 导 辑 时 钟 。 这 是 由 于 Zookeeper 集群 已 经 运行 过 
一 段 时 间 ,那么 服务 器 中 就 会 存在 运行 的 数据 。 下 面 来 讲解 非 全 新 集群 选举 的 过 程 。 

步骤 1: 首先 ,统计 逻辑 时 钟 是 否 相同 ,逻辑 时 钟 小 , 则 说 明 途 中 可 能 存在 宕 机 问题 , 因 
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此 数据 不 完整 ,那么 该 选举 结果 被 忽略 ,重新 投票 选举 ; 

步骤 2: 其 次 ,统一 逻辑 时 钟 后 ,对 比 数据 ID 值 .数据 ID 反应 数据 的 新 旧 程 度 , 因 此 数 
据 ID 大 的 胜出 ; 

步骤 3: 如 果 逻 辑 时 钟 和 数据 ID 都 相同 的 情况 下 ,那么 比较 服务 器 ID( 编 号 ) , 值 大 则 
胜出 ; 

简单 地 讲 , 非 全 新 集群 选举 时 是 优 中 选 优 ,保证 Leader 是 Zookeeper 集群 中 数据 最 完 
整 , 最 可 靠 的 一 台 服 务 器 。 


5.5 Zookeeper 分 布 式 集群 部 署 


Zookeeper 分 布 式 集群 部 署 指 的 是 Zookeeper 分 布 式 模式 安装 。Zookeeper 集群 搭建 
通常 是 由 2n 十 1 台 服 务 器 组 成 ,这 是 为 了 保证 Leader 选举 (基于 Paxos 算法 的 实现 ) 能 够 通 
过 半数 以 上 服务 器 选举 支持 ,因此 ,Zookeeper 集群 的 数量 一 般 为 奇数 。 


5.5.1 Zookeeper 安装 包 的 下 载 安装 


由 于 Zookeeper 集群 的 运行 需要 Java 环境 支持 ,所 以 需要 提前 安装 JDK。 本 章 讲解 的 
是 Leader 十 Follower 模式 的 Zookeeper 集群 。 这 里 我 们 选择 Zookeeper 的 版 本 是 3. 4. 10。 
具体 下 载 安装 步骤 如 下 。 


1. 下 载 Zookeeper 安装 包 

Zookeeper 的 下 载 地 址 为 http://mirror. bit. edu. cn/apache/zookeeper/zookeeper-3. 4. 10/。 
2. 上 传 Zookeeper 安装 包 

将 下 载 完 毕 的 Zookeeper 安装 包 上 传 至 Linux 系统 的 /export/software/ 目 录 下 。 

3. 解压 Zookeeper 安装 包 

首先 ,我 们 进入 安装 包 目 录 ,具体 命令 如 下 : 

$ cd /export/software/ 

其 次 ,解压 安装 包 zookeeper-3. 4. 10. tar. gz 至 /export/servers/ 目 录 , 具 体 命令 如 下 : 

$ tar - zxvf zookeeper- 3.4.10.tar.gz ~C /export/servers/ 


安装 包 解 压 完毕 ,也 就 是 Zookeeper 的 安装 结束 。 但 是 ,并 不 意味 着 Zookeeper 集群 的 部 
署 已 经 结束 ,还 需要 对 其 进行 配置 和 启动 ,若是 启动 成 功 , 才 算是 Zookeeper 集群 部 署 成 功 。 


5.5.2 Zookeeper 相关 配置 


在 上 一 节 中 ,已 经 把 Zookeeper 的 安装 包 成 功 解压 至 /export/servers 目录 下 。 接 下 来 ， 
开始 配置 Zookeeper 集群 。 
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1. 修改 Zookeeper 的 配置 文件 


首先 ,进入 Zookeeper 解压 目录 下 的 conf 目录 ,复制 配置 文件 zoo_sample. cfg 并 重 命 
名 为 zoo. cfg, 具 体 命令 如 下 : 


其 次 ,修改 配置 文件 zoo. cfg, 分 别 设置 dataDir 目录 ,配置 服务 器 编号 与 主机 名 映射 关 
系 , 设 置 与 主机 连接 的 心跳 端口 和 选举 端口 ,具体 配置 内 容 如 下 : 


小 提示 : 配置 文件 zoo. cfg 中 的 参数 server. 1 一 hadoop01:2888:3888, 其 中 ,1 表示 服 
务 器 的 编号 ;hadoop01 表示 这 个 服务 器 的 IP 地 址 ;2888 表示 Leader 选举 的 端口 号 ;3888 
表示 Zookeeper 服务 器 之 间 的 通信 端口 号 (心跳 端口 号 ) 。 
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2. 创建 myid 文件 


首先 ,根据 配置 文件 zoo. cfg 中 设置 的 dataDir 目录 ,创建 zkdata 文件 夹 ,具体 命令 
如 下 : 


$ mdir -P /export/data/zocokeeper/zkdata 


其 次 ,在 zkdata 文件 夹 下 创建 myid 文件 ,该 文件 里 面 的 内 容 就 是 服务 器 编号 
(hadoop01 服务 器 对 应 编号 1,hadoop02 服务 器 对 应 编号 2,hadoop03 服务 器 对 应 编号 3)， 
具体 命令 如 下 : 


$ cd /export/data/zookesper/zkriata 
$ eo ]>myid 
3. 配置 环境 变量 


Linux 系统 目录 /etc 下 的 文件 profile 里 面 的 内 容 都 是 与 Linux 环境 变量 相关 的 。 所 
以 ,一 般配 置 环境 变量 都 是 在 profile 文件 里 面 。 执 行 命令 vi /etc/profile 对 profile 文件 进 
行 修改 ,添加 Zookeeper 的 环境 变量 ,具体 命令 如 下 : 


export. 2K_ HOME- /export/servers/zookeeper— 3.4.10 

expart EAIH= $ EAIH:S JRR_HDMVbin:S HIDOCP HOMEVbin:S HADOCP HME/ Shin:$ ZK HME/bin 

4. 分 发 Zookeeper 相关 文件 至 其 他 服务 器 

首先 ,将 Zookeeper 安装 目录 分 发 至 hadoop02 和 hadoop03 服务 器 上 。 具 体 命令 如 下 : 


$ sq -IT /export/servers/zookeeper- 3.4.10/hadbop02:/export/servers/ 
5 sq -IT /export/servers/zookeeper- 3.4.10/hadoop03:/export/servers/ 


其 次 ,将 myid 文件 分 发 至 hadoop02 和 hadoop03 服务 器 上 ,并且 修改 myid 的 文件 内 
容 , 依 次 对 应 服务 器 号 进行 设置 ,分 别 为 2 和 3。 具体 命令 如 下 : 


$ sqp -r /export/datay/zookeeper/hadbaqp0P:/export/datay/ 
5 sq -IT /export/data/zookeeper/hadooap03:/export/data/ 


最 后 ,将 profile 文件 也 分 发 至 hadoop02 和 hadoop03 服务 器 上 。 具 体 命 令 如 下 : 


$ sqp /etc/profile hadbop02:/etc/profile 
$ sqp /etc/profile hadoop03:/etc/profile 


5. 环境 变量 生效 
分 别 在 hadoop01、hadoop02 和 hadoop03 服务 器 上 刷新 profile 配置 文件 ,使 环境 变量 
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生效 。 具 体 命令 如 下 : 


§$ source /etc/profile 


5.5.3 Zookeeper 服务 的 启动 和 关闭 


截至 目前 ,我 们 已 经 把 Zookeeper 集群 部 署 完毕 , 接 下 来 进行 启动 和 关闭 Zookeeper 服 
务 , 若 Zookeeper 启动 和 关闭 成 功 , 则 表示 Zookeeper 集群 部 署 成 功 。 否 则 ,Zookeeper 集群 


部 署 失败 。 

1. 启动 Zookeeper 服务 

首先 ,依次 在 hadoop01、hadoop02 和 hadoop03 服务 器 上 启动 Zookeeper 服务 ,具体 命 
令 如 下 : 

$ zkServer.sh start 

其 次 ,执行 相关 命令 查看 该 节点 Zookpeer 的 角色 ,具体 命令 如 下 : 

5$ zkServer.sh status 


执行 完 zkServer. sh status 命令 后 ,返回 信息 效果 如 图 5-3 所 示 。 


图 192.168.121.135 - SecureCRT el | 


文件 (月 篇 句 (E) ”查看 (V) ”选项 (O) ”传输 () 尖 本 (S) 工具 (D 帮助 (H) 
EEISEE ET TIT 


ZooKeeper JMX enabTed by defauTt 
using Config: /export/servers/z2ookeeper-3.4.10/bin/.. /conf/z00. cfg 
Start 


国 


ssh2: AES-256-CTR 4，25 14 行 , 99 列 VT100 大写 数字 


图 5-3 ”Zookeeper 启动 后 角色 状态 信息 


从 图 5-3 得 知 ,hadoop02 服务 器 是 Zookeeper 集群 中 的 Leader 角色 。 至 此 ,Zookeeper 
的 Leader 十 Follower 模式 集群 部 署 成 功 。 


2. 关闭 Zookeeper 服务 


若 想 关闭 Zookeeper 服务 ,依次 在 hadoop01、hadoop02 和 hadoop03 机 器 上 执行 相关 命 
令 即 可 ,具体 命令 如 下 : 


$ zkserver.sh stop 
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执行 完毕 后 ,可 以 查看 Zookeeper 服务 状态 ,返回 信息 效果 如 图 5-4 所 示 。 


力 hadoopol- 134 - SecureCRT 
| oe Wd Heb 


Enter host <Alt+R> 


hadoop01-192.168.121134 x | WP hadoop02-192.168.121.135 F YD hadoop03-192.168.121.136 


Ghadoopol ~]# ver en Su 本 
ZooKeeper JMX enabled by d 


Using config: SeboPE /SU Ve /Dokesper= 3. 4;10/bin/. /conf/zo0. cfg 
Error contacting, service. It is probably not running 
[roorehadoop01 ~]# 四 


ssh2: AES-256-CTR 5, 20 8Rows,91Cols VT100 


图 5-4 查询 Zookeeper 服务 的 状态 


从 图 5-4 得 知 ,Zookeeper 服务 没有 启动 ,说 明 关 闭 服 务 成 功 。 


5.6 ”Zookeeper 的 Shell 操作 


5.6.1 Zookeeper Shell 介绍 


Zookeeper 命令 行 工具 类 似 于 Linux 的 Shell 环境 ,能 够 简单 地 实现 对 Zookeeper 进行 
访问 .数据 创建 .数据 修改 等 一 系列 操作 。Shell 操作 Zookeeper 的 常见 命令 ,如 表 5-3 所 示 。 


表 5-3 ”Shell 操作 Zookeeper 的 常见 命令 


常用 命令 命令 描述 
ls/ 使 用 ls 命令 来 查看 Zookeeper 中 所 包含 的 内 容 
ls2/ 查看 当前 节点 数据 并 能 看 到 更 新 次 数 等 数据 
create /zk “test” 在 当前 目录 创建 一 个 新 的 Znode 节点 zk 以 及 与 它 关联 的 字符 串 
get /zk 获取 zk 所 包含 的 信息 
set /zk “zkbak” 对 zk 所 关联 的 字符 串 进行 设置 
delete /zk 将 节点 Znode 删除 
rmr 将 节点 Znode 递归 删除 
help 帮助 命令 


5.6.2 通过 Shell 命令 操作 Zookeeper 


上 面 已 经 详细 介绍 客户 端 操作 Zookeeper 的 常见 命令 。 本 节 , 主 要 是 通过 Shell 命令 来 
操作 Zookeeper。 首 先 , 启 动 Zookeeper 服务 ;其 次 ,连接 Zookeeper 服务 。 有 具体 命令 如 下 : 


$ zkServer.sh start 
$ ZkCli.sh - server localhost:2181 


连接 成 功 后 ,系统 会 输出 Zookeeper 集群 的 相关 配置 信息 ,并 在 屏幕 输出 “welcome to 
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Zookeeper1” 等 信息 ,如 图 5-5 所 示 。 
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evir onment user home=/roor 
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图 $-5 ”Zookeeper 服务 连接 成 功 


从 图 5-5 可 知 ,已 经 成 功 连接 到 Zookeeper 服务 。 接 下 来 ,通过 Shell 命令 操 
Zookeeper。 具 体操 作 如 下 。 


显示 所 有 操作 命令 


在 客户 端 输入 help, 屏 幕 会 输出 所 有 可 用 的 Shell 命令 ,如 图 5-6 所 示 。 
[图 lolealzlat-serccr (cll 


文件 有 编 E) 查看 M) 选项 (0) 传 绽 ) 脚本 (S) 工具 (D。 帮助 (H) 
浊 浏 同 引 名 | 避 区 的 | 吗 吕 马 | 困 做 191@ | 国有 自 


1 192.168,121.134 


CONNECTED eTp 
Zookeeper -server host: i cmd args 

stat path [watch] 

Set path data [version] | 

1s_path CE 

delquora ] parh 

1s2 path RE 

setAC1 path ac1 

Setquota -n|-b val path 

history 

redo cmdno 

printwatches on|off 

delere path [version] | 

path 

Yatobota path | 

rmr path 

get path Rat 

create [-: path data ac1 

addauth 5 auth 

quit 

getAc1 path 

Close 

Connect host:port 同 
[zk: Tocalhost:2181CcONNECTED) 1] 国 


就 结 ssh2: AES-256-CTR 24,35 24 行 ,104 列 VT100 大写 数字 


图 5-6 ”help 命令 


2. 查看 当前 Zookeeper 中 所 包含 的 内 容 
在 客户 端 输入 ls / ,屏幕 会 输出 Zookeeper 中 所 包含 的 内 容 , 如 图 5-7 所 示 。 


作 
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下 


se 
View Transfer Seip Tools Window Help 
Enter host <Ak+R> Er 于 


BI(CONNECTED) 0]J Ts 7/ 
arn-leader -election, testnode-p, hadoop-ha] | 


35 21Rows, 84Cols VT100 


小 提示 : 根 目 


图 5-7 ls 命令 


录 下 有 一 个 自 带 的 /zookeeper 子 节点 , 它 来 保存 Zookeeper 的 配额 管理 


信息 ,不 要 轻易 删除 。 


3. 查看 当前 节点 数据 


在 客户 端 输 入 


esnode0003000000, zookeeper, yarn-1eader-election, testnode-p, hadoop-ha] 
CZx = 
Si = Thy 3an 01 08:00:00 csT 1970 


mxid = 


mtime = ho Jan 01 08:00:00 CsT 1970 
20000000f 


1s2 / ,屏幕 会 输出 当前 节点 数据 并 且 能 看 到 更 新 次 数 等 数据 ,如 图 5-8 所 示 。 


ssh2: AES-256-CTR 14, 35 19Rows, 85Cols VT100 
二 3 


4. 创建 节点 


图 5-8 ls2 命令 


在 命令 行 输入 创建 节点 的 命令 ,具体 命令 格式 如 下 : 


$ create [-5] [-e] path data acl 


:115- 


116 


其 中 ,ls 和 1s2 命令 在 前 面 已 经 进行 演示 ,现在 演示 get 命令 。 
指定 节点 的 数据 内 容 和 属性 信息 。 屏 幕 输出 的 效果 ,如 图 5-10 所 示 。 
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其 中 ,-s 表示 是 否 开启 节点 的 序列 化 特性 ,-e 表示 开启 临时 节点 特性 , 若 不 指定 , 则 表示 永 
久 节 点 ;path 表示 创建 的 路 径 ,data 表示 创建 节点 的 数据 ,这 是 因为 Znode 可 以 像 目录 一 样 


存在 也 可 以 像 文 件 一 样 保存 数据 ;acl 用 来 进行 权限 控制 (一 般 不 需要 了 解 ) 。 


创建 序列 化 永久 节点 : 

$ create - 5 /testnode test 

创建 临时 节点 : 

$ create -e /testnode- tenp testtarp 
创建 永久 节点 : 

$ create /testnode-p testp 


接 下 来 ,以 创建 临时 节点 为 例 进行 演示 ,屏幕 输出 的 效果 ,如 图 5-9 所 示 。 


Oe 区 
creared” Drestnode-t 

E zk: 1ocalhost: eBEcTeD) 2] 1 
tes 


tnode0000000000，zookeeper ar feader- election, testnode-p, hadoop-ha, 
zk: 1ocalhosr:2181 (coNNECTED) 3 


ssh2: AES-256-CTR 5, 35 27 Rows, 105 Cols VT100 


图 5-9 创建 节点 命令 


5. 获取 节点 
在 命令 行 输入 获取 节点 的 命令 ,具体 命令 格式 如 下 : 
$ 15Path [watch] 


$ get path [watch] 
$ 152 path fwatch] 


6. 修改 节点 
在 命令 行 输入 修改 节点 的 命令 .具体 命令 格式 如 下 : 


get 命令 可 以 获取 Zookeeper 
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[xid = 
ms 二 Ts Jan ol 08:00:00 csT 1970 


Imtime = 2 Sep 15 05:38:52 CST 2018 
pzxid = 22 

en = a 

daraversion = 0 

aciversion ~ 0 

|ephemeralowner = ox165daf7ddea00of 
ldataL ength = 8 


ssh2: AES-256-CTR 27, 35 31 Rows, 105 Cols VT100 
图 5-10 ”get 命令 
5 set path data [version] 


其 中 ,data 就 是 要 修改 的 新 内 容 ,version 表示 数据 版 本 。 接 下 来 ,我们 要 对 前 面 创建 的 临时 
节点 testnode-temp 进行 修改 操作 。 屏 幕 输出 的 效果 ,如 图 5-11 所 示 。 


ocaThost 
cZxid 2 Ox1200000027 
ime E28680d3.06:28:51 Csr 2018 


ime 强 Sel tt 06: 29:16 CST 2018 
pr ed 


Spheneralowner = Ox165d8f7ddea0010 
dataL er h= 
ON 人 和 en -0 


Jocalhost:2181(CONNECTED) 7] [get /testnode-temp 
[23 |] 


Ox1200000027 

Sat Sep 15 06:28:51 CST 2018 
Ox12! 28 
Besods0:29:16 csT 2018 


0 
Spheneralowner ~ 0x165d8f7ddea0010 
darat gth = 

numchil 

[zk: ocathost® 2181(CONNECTED) 8] 四 


ssh2: AES-256-CTR 26, 35 26 Rows, 100 Cols VT100 


图 5-11 set 命 令 


从 图 5-11 可 知 ,通过 修改 节点 命令 ,将 testnode-temp 节点 上 的 dataVersion 版 本 变 为 
1, 并 且 再 次 查看 节点 信息 ,看 到 节点 内 容 也 变 成 123。 


Bill8a 
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7. 监听 节点 


监听 节点 也 就 是 监听 节点 的 变化 ,可 以 概括 为 3 个 过 程 。 客 户 端 向 服务 端 注 册 Watch、 
服务 端 事件 发 生 触 发 Watch .客户 端 回调 Watch 得 到 触发 事件 的 情况 。 

首先 ,客户 端 向 服务 端 注册 Watch ,在 服务 器 hadoop01 客户 端的 命令 行 输入 命令 ,具体 
命令 如 下 : 


§$ get /testnpde tenp watch 


其 次 ,服务 端 发 生 事件 触发 Watch, 在 服务 器 hadoop02 客户 端的 命令 行 输 入 命令 ,具体 
命令 如 下 : 


$ set /testnode_ temp testwatch 


最 后 ,客户 端 回调 Watch 得 到 触发 事件 的 情况 。 屏 幕 输出 的 效果 ,如 图 5-12 所 示 。 


二 eae 
czxid = Ox1200000: 
Ce > Sat ?3ep 9207.36:44 cst 2018 
rexid ~ Ox120000002f 
~ $80 :36:53 csT 2018 
外 3 = 5a72588 


ssh2: AES-256-CTR 18, 1 18Rows,100Cols VT100 


图 5-12 监听 节点 


8. 删除 节点 
在 命令 行 输入 删除 节点 的 命令 ,具体 命令 格式 如 下 : 


普通 删除 的 命令 

$ delete path [version] 
递归 删除 的 命令 

5 mr path [versicn] 


其 中 ,使 用 delete 命令 删除 节点 时 , 若 要 删除 的 节点 存在 子 节点 ,就 无 法 删除 该 节点 ,必须 先 
删除 子 节点 , 才 可 删除 父 节 点 ;使 用 rmr 命令 递归 删除 节点 ,不 论 该 节点 下 是 否 存在 子 节 
点 ,可 以 直接 删除 。delete 删除 命令 演示 ,对 testnode-temp 节点 进行 删除 操作 ,屏幕 输出 的 
效果 ,如 图 5-13 所 示 。rmr 递归 删除 命令 演示 ,对 testnode-temp 节点 进行 删除 操作 。 屏 幕 
输出 的 效果 ,如 图 5-14 所 示 。 
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ssh2: AES-256-CTR 4, 36 18Rows, 100 Cols VT100 
一 


图 5-13 delete 命令 


ssh2: AES-256-CTR 4, 36 26 Rows, 100 Cols VT100 


图 5-14 rmr 命 令 


从 图 5-13 和 图 5-14 可 知 ,testnode-temp 节点 已 经 被 删除 。 


5.7 ”Zookeeper 的 Java API 操作 


5.7.1 Zookeeper Java API 介绍 


Zookeeper 提供 了 Java API, 可 以 在 Java 中 调用 Zookeeper 进行 操作 。 本 节 主 要 是 利 
用 Zookeeper Java API 创建 的 Zookeeper 对 象 创 建 连接 会 话 。 然 而 ,由 于 Zookeeper 对 象 
创建 会 话 时 是 异步 操作 ,所 以 需要 程序 等 待 延迟 关闭 ,并 且 在 实现 watcher 接口 的 方法 中 收 
集 连 接 会 话 后 返回 的 信息 。 下 面 来 学 习 Zookeeper API。 
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Zookeeper API 共 包含 5 个 包 , 分 别 为 
。 org. apache. zookeeper; 


。 org. apache. zookeeper. data; 


org. apache. zookeeper. server; 


org. apache. zookeeper. server. quorum; 
org. apache. zookeeper. server. upgrade。 

其 中 org. apache. zookeeper 包含 Zookeeper 类 ,这 也 是 编程 时 最 常用 的 类 文件 。 
Zookeeper 类 作为 Zookeeper 客户 端 库 的 主要 类 文件 ,如 果 要 使 用 Zookeeper 服务 ,应 用 程 
序 就 需要 先 创建 一 个 Zookeeper 实例 对 象 , 一 旦 客户 端 与 Zookeeper 服务 建立 了 连接 ， 
Zookeeper 系统 将 会 为 此 连接 分 配 一 个 会 话 的 ID 值 ,并 且 客 户 端 会 周期 性 地 向 服务 器 发 送 
心跳 来 保持 会 话 的 连接 ,只 要 连接 正常 ,客户 端 就 可 以 调用 Zookeeper API 进行 操作 。 下 面 
介绍 Zookeeper 类 提供 的 常用 方法 ,如 表 5-4 所 示 。 


表 5-4 Zookeeper 常用 方法 


方法 名 称 方法 描述 方法 名 称 方法 描述 
create 创建 节点 get/setData | 获取 /修改 节点 数据 
delete 删除 节点 getChildren | 获取 指定 节点 下 的 所 有 子 节点 列表 
exists 判断 节点 是 否 存 在 


5.7.2 通过 Java API 操作 Zookeeper 


我 们 已 经 详细 介绍 Zookeeper 的 常用 方法 。 本 节 主 要 是 通过 Java API 来 操作 
Zookeeper。 首 先 ,启动 Zookeeper 服务 ;其 次 ,连接 Zookeeper 服务 ;最 后 ,操作 Zookeeper。 
(启动 和 连接 Zookeeper 服务 的 具体 操作 步骤 ,参见 5. 6. 2 节 , 在 此 节 不 作 重 述 ) 


1. 添加 依赖 
首先 ,在 HadoopDemo 工程 中 添加 Zookeeper 相关 依赖 ,代码 如 下 : 


< dependency> 
<groupIdr org.apache.zookeeper< /groupId> 
<artifactId> zookeeper< /artifactId> 
<version> 3.4.10< /version> 

< /dependency> 


2. 操作 Zookeeper 


在 项 目 src 文件 夹 下 创建 cn. itcast. zookeepe 包 , 在 这 里 创建 ZookeeperTest. java 文 


件 , 我 们 通过 创建 节点 、 获 取 节 点 、 修 改 节点 、 判 断 节点 是 否 存 在 以 及 删除 节点 等 方法 来 操作 
Zookeeper。 具 体 实现 代码 ,如 文件 5-1 所 示 。 
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文件 5-1 ZookeeperTest. java 


必 BREEESeowanuwwwnb 


5 


> 


窜 乌 


import org.apache.zo0keeper.CreateMde; 
inport org.apache.zo0okeeper.200Defs. Tds; 
import org.apache.zookeeper.ZocFeeper7 
piblic class ZookeeperTest { 


Public static void main(String[] args) throws Exoeption { 
// 步 又 一 : 创建 Zockesper 客户 端 
/参数 1: 水 地 址 ;参数 2: 会 话 超 时 时 间 往 系统 默认 一 致 ); 参 数 3: 监 视 器 
ZpGFeeper zk= new ZooFeeper (acpop01:2181,haqpop02:2181,\ 
hadbap03:2181"，30000, new Waticher() { 
Qoverride 
/| 监控 所 有 被 触发 的 事件 也 就 是 在 这 里 进行 事件 的 处 理 ) 
Piblic void process (Watchedevent event) { 
System.cut.println( 事 件 类 型 为 : " +event.getType0); 
System.cut.println( 事 件 发 生 的 路 径 : " +event.getPath()); 
System.out.printin(" 通 知 状态 为 : " + event.getSstate())7 
} 
Ds; 
/步骤 二 : 创建 目录 节点 
// 参 数 1: 要 创建 的 节点 的 路 径 ; 参 数 2: 节 点 数据 ;参数 3: 节 点 权限 ;参数 4: 节 点 类 型 
zk.create ("/testRootPath", "testRootData".getBytes (),\ 
JIds.OFEN ACL, UNSAFE, CreateMode.FERSISIENT); 
// 步 又 三 : 创建 子 目录 节点 
zk.create ("/testRootPath/testchildpathone", 
"testchildDataone”".getBytes (), 
JId5.OFEN ACL, INSAFE, 
CreateMde .FERSISTEND) ; 
// 步 又 四 : 获取 目录 节点 数据 
// 参 数 1: 存 储 节点 数据 的 路 径 ， 
/参数 2: 是 否 需 要 监控 此 节点 (true/false) 
// 参 数 3:stat 节点 的 统计 信息 (一 般 设置 为 nu11) 
System.out.printin("testRootpata 节 点 数据 为 : "+\ 
new String (zk.getData ("/testRootpath", false, null))) 
// 步 又 五 : 获取 子 目录 节点 数据 
System.out .print in (zk.getchi ldren ("/testRootPath", true)); 
// 步 又 六 : 修改 子 目录 节点 数据 ,使 得 监听 触发 
// 参 数 1: 存 储 子 目录 节点 数据 的 路 径 
/参数 2: 要 修改 的 数据 ; 
/参数 3: 预 期 要 匹配 的 版 本 负 置 为 -1, 则 可 匹配 任何 节点 的 版 本 ) 
zk.setpata ("/testRootPath/testchildpathone", \ 
"modifychildpataone".getBytes0，- J); 
// 步 又 七 :判断 目录 节点 是 否 存在 
System.cut.println "目录 节点 状态 : ["+\ 
zk.exists ("/testRootpath" true) +"]"); 
// 步 骤 八 : 删除 子 目 录 节 点 
zk.delete("/testRootPath/testchildPathone", —1); 
/步骤 九 : 删除 目录 节点 
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49 zk.delete ("/testpootPath", -1). 
50 zk.close(); 

H 了 

旦 } 


通过 执行 文件 5-1 的 main 方法 ,控制 台 打 印 输出 的 内 容 , 如 图 5-15 所 示 。 


EE ET 


ss onTineouts30080 watcherecon. itcast. kDeno ZookeeperTest92651cefdeg 
to authenticate using SASL (unknown error) 


= ex365dedeb54a8882，negotiated tineout = 36688 


81604373676,1537849699397,15378949696397,8,1,9,8,12,1,81684378677 


Nodechildrenchanged 
ie RootPath 
cted 


图 5-15 Java API 操作 Zookeeper 输出 的 内 容 


小 提示 : Watcher 接口 表示 一 个 标准 的 事件 处 理 器 , 它 定 义 了 事件 通知 的 相关 逻辑 , 它 包 
含 KeeperState 和 EventType 两 个 枚 举 类 ,分别 代表 了 通知 状态 和 事件 类 型 ,同时 定义 了 事件 
的 回调 方法 process(WatchedEvent event) ,process() 方 法 是 Watcher 接口 中 的 一 个 回调 方法 ， 
当 ZooKeeper 向 客户 端 发 送 一 个 Watcher 事件 通知 时 ,客户 端 就 会 对 相应 的 process 方法 进行 
回调 ,从 而 实现 对 事件 的 处 理 , 因 此 这 就 是 通过 Java API 操作 Zookeeper 的 思想 。 


5.8 Zookeeper 典型 应 用 场景 


5.8.1 数据 发 布 与 订阅 


数据 发 布 与 订阅 模型 , 即 所 谓 的 全 局 配置 中 心 .就 是 发 布 者 将 需要 全 局 统一 管理 的 数据 
发 布 到 Zookeeper 节点 上 , 供 订阅 者 动态 获取 数据 ,实现 配置 信息 的 集中 式 管 理 和 动态 更 
新 。 例 如 全 局 的 配置 信息 ,服务 式 服务 框架 的 服务 地 址 列表 等 就 非常 适合 使 用 。 接 下 来 , 介 
绍 一 些 数据 发 布 与 订阅 的 主要 应 用 场景 。 

(1) 应 用 中 用 到 的 一 些 配 置信 息 放 到 Zookeeper 上 进行 集中 管理 。 这 类 场景 通常 是 这 样 : 
应 用 在 启动 时 会 主动 来 获取 一 次 配置 ,同时 ,在 节点 上 注册 一 个 Watcher, 这 样 一 来 ,以 后 每 次 
配置 有 更 新 的 时 候 ,都 会 实时 通知 到 订阅 的 客户 端 ,用 来 达到 获取 最 新 配置 信息 的 目的 。 

(2) 分 布 式 搜索 服务 中 ,索引 的 元 信息 和 服务 器 集群 机 器 的 节点 状态 存放 在 Zookeeper 
的 一 些 指定 节点 , 供 各 个 客户 端 订阅 使 用 。 

(3) 分 布 式 日 志 收 集 系 统 中 ,这 个 系统 的 核心 工作 是 收集 分 布 在 不 同 机 器 的 日 志 。 收 
集 器 通常 是 按照 应 用 来 分 配 收集 任务 单元 ,因此 需要 在 Zookeeper 上 创建 一 个 以 应 用 名 作 
为 path 的 节点 了 ,并 将 这 个 应 用 的 所 有 机 器 了 了 .以 子 节点 的 形式 注册 到 节点 P 上 ,这 样 一 来 
当 机 器 变动 的 时 候 , 能 够 实时 通知 到 收集 器 调整 任务 分 配 。 

(4) 系统 中 有 些 信息 需要 动态 获取 ,并 且 还 会 存在 人 工 手 动 去 修改 这 个 信息 的 发 问 。 
通常 是 暴露 出 接口 ,例如 JMX 接口 ,来 获取 一 些 运行 时 的 信息 。 

引入 Zookeeper 之 后 就 不 用 自己 实现 一 套 方案 了 ,只 要 将 这 些 信 息 存 放 到 指定 的 
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Zookeeper 节点 上 即 可 。 
小 提示 : 在 上 面 提 到 的 应 用 场景 中 ,有 个 默认 前 提 是 : 数据 量 很 小 ,但 是 数据 更 新 可 能 
会 比较 快 的 场景 。 


5.8.2 统一 命名 服务 


命名 服务 也 是 分 布 式 系统 中 比较 常见 的 一 类 场景 。 在 分 布 式 系统 中 ,通过 使 用 命名 服 
务 , 客 户 端 应 用 能 够 根据 指定 名 字 来 获取 资源 服务 的 地 址 ,提供 者 等 信息 。 被 命名 的 实体 通 
常 可 以 是 集群 中 的 机 器 ,提供 的 服务 地 址 ,进程 对 象 等 ,这 些 都 可 以 统称 为 名 字 (Name)。 其 
中 较为 常见 的 就 是 一 些 分 布 式 服务 框架 中 的 服务 地 址 列表 。 通 过 调用 Zookeeper 提供 的 创 
建 节点 的 API, 能 够 很 容易 创建 一 个 全 局 唯一 的 path, 这 个 path 就 可 以 作为 一 个 名 称 。 接 
下 来 ,介绍 统一 命名 服务 的 主要 应 用 场景 。 

阿里 开源 的 分 布 式 服务 框架 Dubbo 中 使 用 Zookeeper 来 作为 其 命名 服务 ,维护 全 局 的 
服务 地 址 列表 。 在 Dubbo 实现 中 : 服务 提供 者 在 启动 的 时 候 , 向 Zookeeper 上 的 指定 节点 / 
dubbo/ $ {serviceName)/providers 目录 下 写 和 自己 的 URL 地 址 ,这 个 操作 就 完成 了 服务 
的 发 布 。 服 务 消费 者 启动 的 时 候 , 订 阅 /dubbo/ $ {serviceName)/providers 目录 下 的 提供 
者 URL 地 址 ,并 向 /dubbo/ $ {serviceName)/consumers 目录 下 写 入 自己 的 URL 地 址 。 

小 提示 : 

(1) 所 有 向 Zookeeper 上 注册 的 地 址 都 是 临时 节点 ,这 样 能 够 保证 服务 提供 者 和 消费 
者 能 够 自动 感应 资源 的 变化 。 

(2) Dubbo 还 有 针对 服务 粒度 的 监控 ,方法 是 订阅 /dubbo/ $ {serviceName} 目录 下 所 
有 提供 者 和 消费 者 的 信息 。 


5.8.3 分 布 式 锁 


分 布 式 锁 ,主要 得 益 于 Zookeeper 保证 了 数据 的 强 一 致 性 。 锁 服务 可 以 分 为 两 类 ,一 个 
是 保持 独占 , 另 一 个 是 控制 时 序 。 所 谓 保 持 独占 ,就 是 将 所 有 试图 来 获取 这 个 锁 的 客户 端 ， 
最 终 只 有 一 个 客户 端 可 以 成 功 获得 这 把 锁 , 从 而 执行 相应 操作 (通常 的 做 法 是 把 Zookeeper 
上 的 一 个 Znode 看 作 是 一 把 锁 , 通 过 创建 临时 节点 的 方式 来 实现 ); 控 制 时 序 则 是 所 有 试图 
来 获取 锁 的 客户 端 ,最 终 都 会 被 执行 ,只 是 存在 了 全 局 时 序 。 它 的 实现 方法 和 保持 独占 基本 
类 似 , 这 里 /distribute_lock 预先 存在 ,那么 客户 端 在 它 下 面 创建 临时 序列 化 节点 (这 个 可 以 
通过 节点 的 属性 控制 CreateMode. EPHEMERAL_SEQUENTIAL 来 指定 ) ,并 根据 序列 
号 大 小 进行 时 序 性 操作 。 接 下 来 ,介绍 分 布 式 锁 的 主要 应 用 场景 。 

当 所 有 客户 端 都 去 创建 /distribute_lock 临时 非 序 列 化 节点 ,那么 最 终 成 功 创建 的 客户 
端 也 即 拥有 了 这 把 锁 , 拥 有 了 访问 该 数据 的 权限 , 当 操作 完毕 后 , 断 开 与 Zookeeper 连接 , 那 
么 该 临时 节点 就 会 被 删除 ,如果 其 他 客户 端 需要 操作 这 个 文件 ,客户 端 只 需 监听 这 个 目录 是 
否 存在 即 可 。 


5.9 ”本章 小 结 


本 章 主 要 讲解 Zookeeper 分 布 式 协调 服务 。 首 先 ,通过 对 Zookeeper 中 基本 概念 和 特 
性 的 概述 ,让 大 家 对 Zookeeper 分 布 式 协调 服务 有 基本 的 认识 ;其 次 ,对 Zookeeper 的 内 部 
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数据 模型 以 及 机 制 进行 讲解 ,让 大 家 明白 Zookeeper 内 部 运行 原理 ;最 后 ,通过 Shell 和 Java 


API 分 别 对 Zookeeper 的 操作 进行 讲解 ,编写 实际 案例 ,让 大 家 对 本 章 的 知识 进行 实践 应 
用 。 通 过 本 章 的 学 习 , 大 家 可 以 使 用 Zookeeper 简化 分 布 式 系统 构建 的 服务 。 


5.10 课 后 习题 


一 、 填空 题 
1. Zookeeper 集群 主要 有 5 和 三 种 角色 。 
2. Znode 有 两 种 节点 ,分 别 是 和 可 
3. Zookeeper 引入 机 制 实现 分 布 式 的 通知 功能 。 
二 、 判 断 题 
1. Zookeeper 对 节点 的 Watch 监听 通知 是 永久 性 的 。 ( ) 
2. Zookeeper 集群 宕 机 数 超过 集群 数 一 半 , 则 Zookeeper 服务 失效 。 ( ) 
3. Zookeeper 可 以 作为 文件 存储 系统 ,因此 可 以 将 大 规模 数据 文件 存在 该 系统 中 。 ( ) 
三 、 选择 题 
1. Zookeeper 启动 时 会 最 多 监听 几 个 端口 ? ( ) 
A. 1 B. 2 C3 D. 4 
2. 下 列 哪些 操作 可 以 设置 一 个 监听 器 Watcher? (。 ) 
A. getData B. getChildren C. exists D. setData 


3. 下 列 关 于 zookeeper 描述 正确 的 是 ( 

A. 无 论 客户 端 连接 的 是 哪个 Zookeeper 服务 器 ,其 看 到 的 服务 端 数据 模型 都 是 一 
致 的 

B. 从 同一 个 客户 端 发 起 的 事务 请 求 ,最 终 将 会 严格 按照 其 发 起 顺序 被 应 用 到 
zookeeper 中 

C. 在 一 个 5 个 节点 组 成 的 Zookeeper 集群 中 ,如 果 同 时 有 3 台 机 器 宕 机 ,服务 不 受 
影响 

D. 如 果 客 户 端 连接 到 Zookeeper 集群 中 的 那 台 机 器 突然 宕 机 ,客户 端 会 自动 切换 
连接 到 集群 其 他 机 器 


四 、 简 答题 


1. 简 述 Watch 机 制 的 特点 。 
2. 简 述 Zookeeper 集群 选举 机 制 。 


五 、 编 程 题 


利用 Java API 调用 Zookeeper, 实 现 创建 节点 、 获 取 节 点 .修改 节点 .判断 节点 是 否 存在 
以 及 删除 节点 。 


第 6 章 
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学 习 目 标 
。 掌握 YARN 的 体系 结构 和 工作 流程 。 


。 掌握 HDFS 的 高 可 用 架构 。 
。 会 搭建 Hadoop 高 可 用 集群 。 


在 第 1 章 介 绍 Hadoop 版 本 时 ,介绍 过 在 Hadoop 最 初 诞生 时 ,在 架构 设计 和 应 用 性 能 
方面 存在 很 多 不 尽 如 人 意 的 地 方 ,然而 在 后 续 发 展 过 程 中 逐渐 得 到 了 改进 和 完善 。 相 比 
Hadoop 1.0 版 本 ,Hadoop 2.0 的 优化 改良 主要 体现 在 两 个 方面 : 一 方面 是 Hadoop 自身 核 
心 组 件 架构 设计 的 改进 , 另 一 方面 是 Hadoop 集群 性 能 的 改进 ,通过 这 些 优化 和 提升 ， 
Hadoop 可 以 支持 更 多 的 应 用 场景 , 带 来 更 高 的 资源 利用 率 。 接 下 来 ,本 章 将 针对 Hadoop 
2.0 的 一 些 新 特性 进行 讲解 。 


6.1 Hadoop 2.0 改进 与 提升 


为 了 大 家 更 好 地 理解 Hadoop 2. 0 的 新 特性 , 先 来 回顾 一 下 第 1 章 介绍 的 Hadoop 1.0 
架构 和 Hadoop 2.0 的 区 别 , 具 体 如 表 6-1 所 示 。 


表 6-1 Hadoop 1.0 和 Hadoop 2.0 对 比 


组 件 Hadoop 1.0 的 局 限 和 不 足 Hadoop 2.0 的 改进 
HDFS NameNode 存在 单 点 故障 风险 HDFS 引入 了 高 可 用 机 制 
MapReduce | JobTracker 存在 单 点 故障 风险 , 且 内 存 扩展 受 限 | 引入 了 一 个 资源 管理 调度 框架 YARN 


表 6-1 列举 了 Hadoop 2. 0 的 两 个 改进 之 处 ,在 下 面 的 内 容 中 ,将 分 别 介绍 Hadoop 2.0 
中 的 资源 管理 框架 YARN 和 高 可 用 机 制 ,让 大 家 对 Hadoop 2.0 有 一 个 全 新 的 认识 。 


6.2 YARN 资源 管理 框架 


6.2.1 YARN 体系 结构 


YARN(Yet Another Resource Negotiator, 另 一 种 资源 协调 者 ) 是 一 个 通用 的 资源 管理 
系统 和 调度 平台 , 它 的 基本 设计 思想 是 将 MRvl(CHadoop 1. 0 中 的 MapReduce) 中 的 
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JobTracker 拆 分 为 两 个 独立 的 任务 ,这 两 个 任务 分 别 是 全 局 的 资源 管理 器 ResourceManager 
和 每 个 应 用 程序 特有 的 ApplicationMaster。 其 中 ,ResourceManager 负责 整个 系统 的 资源 
管理 和 分 配 ,而 ApplicationMaster 负责 单个 应 用 程序 的 管理 。 接 下 来 ,我 们 通过 一 张 图 来 
描述 YARN 的 体系 结构 ,具体 如 图 6-1 所 示 。 


NodeManager 
(NM) 


Application 
Master( AM) 


客户 端 


Application Status — 
Client Submission 
Node Status 

Resource Request 


NodeManager 
(NM) 


图 6-1 YARN 体系 结构 


在 图 6-1 中 ,YARN 体系 结构 的 核心 组 件 有 3 个 ,具体 介绍 如 下 : 


1. ResourceManager 


ResourceManager 是 一 个 全 局 的 资源 管理 系统 , 它 负责 的 是 整个 YARN 集群 资源 的 监 
控 , 分 配 和 管理 工作 ,具体 工作 如 下 : 

(1) 负责 处 理 客户 端 请 求 ; 

(2) 接收 和 监控 NodeManager(NM) 的 资源 情况 ; 

(3) 启动 和 监控 ApplicationMaster(AM); 

(4) 资源 的 分 配 和 调度 。 

值得 一 提 的 是 ,在 ResourceManager 内 部 包含 了 两 个 组 件 ,分 别 是 调度 器 (Scheduler) 
和 应 用 程序 管理 器 (Application Manager) ,其 中 调度 器 根据 容量 、 队 列 等 限制 条 件 ( 如 每 个 
队列 分 配 一 定 的 资源 ,最 多 执行 一 定数 量 的 作业 等 ) ,将 系统 中 的 资源 分 配给 各 个 正在 运行 
的 应 用 程序 。 该 调度 器 是 一 个 “ 纯 调 度 器 ”, 它 不 再 从 事 任何 与 具体 应 用 程序 相关 的 工作 ;而 
应 用 程序 管理 器 负责 管理 整个 系统 中 所 有 的 应 用 程序 ,包括 应 用 程序 的 提交 、 调 度 协 调资 源 
以 启动 ApplicationMaster ,监控 ApplicationMaster 运行 状态 并 在 失败 时 重新 启动 。 
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2. NodeManager 


NodeManager 是 每 个 节点 上 的 资源 和 任务 管理 器 ,一 方面 , 它 会 定时 地 向 
ResourceManager 汇报 所 在 节点 的 资源 使 用 情况 ; 另 一 方面 , 它 会 接收 并 处 理 来 自 
ApplicationMaster 的 启动 停止 容器 (Container) 的 各 种 请 求 。 


3. ApplicationMaster 


用 户 提交 的 每 个 应 用 程序 都 包含 一 个 ApplicationMaster, 它 负 责 协 调 来 自 
ResourceManager 的 资源 ,把 获得 的 资源 分 配给 内 部 的 各 个 任务 ,从 而 实现 “二 次 分 配 ”。 除 
此 之 外 ,ApplicationMaster 还 会 通过 NodeManager 监控 容器 的 执行 和 资源 使 用 情况 ,并 在 
任务 运行 失败 时 重新 为 任务 申请 资源 以 重启 任务 。 当 前 的 YARN 自 带 了 两 个 
ApplicationMaster 的 实现 ,一 个 是 用 于 演示 ApplicationMaster 编写 方法 的 实例 程序 
DistributedShell, 它 可 以 申请 一 定数 目的 Container 以 并 行 方式 运行 一 个 Shell 命令 或 者 
Shell 脚本 ; 另 一 个 则 是 运行 MapReduce 应 用 程序 的 ApplicationMaster-MRAppMaster。 

需要 注意 的 是 ,ResourceManager 负责 监控 ApplicationMaster, 并 在 ApplicationMaster 运 
行 失败 的 时 候 重启 ,大 大 提高 集群 的 拓展 性 。ResourceManager 不 负责 ApplicationMaster 
内 部 任务 的 容错 ,任务 的 容错 由 ApplicationMaster 完成 ,总 体 来 说 , ApplicationMaster 的 
主要 功能 是 资源 的 调度 ,监控 与 容错 。 


6.2.2 YARN 工作 流程 
掌握 了 YARN 的 体系 结构 后 , 接 下 来 看 一 下 YARN 的 工作 流程 ,具体 如 图 6-2 所 示 。 
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图 6-2 YARN 工作 流程 


下 面 针 对 图 6-2 展示 的 YARN 的 工作 过 程 进行 介绍 ,具体 如 下 : 
(1) 用 户 通过 客户 端 Client 向 YARN 提交 应 用 程序 Application, 提交 的 内 容 包含 
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Application 的 必 备 信息 ,如 ApplicationMaster 程序 .启动 ApplicationMaster 的 命令 、 用 户 
程序 等 。 

(2) YARN 中 的 ResourceManager 接收 到 客户 端 应 用 程序 的 请 求 后 ， 
ResourceManager 中 的 调度 器 (Scheduler) 会 为 应 用 程序 分 配 一 个 容器 ,用 于 运行 本 次 程序 
对 应 的 ApplicationMaster。 图 6-2 中 的 MR App Mstr 表示 的 是 MapReduce 程序 的 
ApplicationMaster。 

(3) ApplicationMaster 被 创建 后 ,首先 向 ResourceManager 注册 信息 ,这 样 用 户 可 以 
通过 ResourceManager 查看 应 用 程序 的 运行 状态 。 接 下 来 第 (4) 一 (7) 步 是 应 用 程序 的 具 
体 执 行 步 又。 

(4) ApplicationMaster 采用 轮 询 的 方式 通过 RPC 协议 向 ResourceManager 申请 资源 。 

(5) ResourceManager 向 提出 申请 的 ApplicationMaster 分 配 资源 。 一 旦 ApplicationMaster 
申请 到 资源 后 , 便 与 对 应 的 NodeManager 通信 ,要 求 启动 任务 。 

(6) NodeManager 为 任务 设置 好 运行 环境 (包括 环境 变量 .jar 包 、 二 进 制程 序 等 ) 后 ,将 
任务 启动 命令 写 到 一 个 脚本 中 ,并 通过 运行 该 脚本 启动 任务 。 

(7) 各 个 任务 通过 某 个 RPC 协议 向 ApplicationMaster 汇报 自己 的 状态 和 进度 ,让 
ApplicationMaster 随时 掌握 各 个 任务 的 运行 状态 ,从 而 可 以 在 任务 失败 时 重新 启动 任务 。 

(8) 应 用 运行 结束 后 ,ApplicationMaster 向 ResourceManager 注销 自己 ,并 关闭 自己 。 
如 果 ApplicationMaster 因为 发 生 故 障 导 致 任务 失败 ,那么 ResourceManager 中 的 应 用 程序 
管理 器 会 将 其 重新 启动 ,直到 所 有 任务 执行 完毕 。 


6.3 HDFS 的 高 可 用 


6.3.1 HDFS 的 高 可 用 架构 


在 HDFS 中 ,NameNode 是 系统 的 核心 节点 , 它 存储 了 各 类 元 数据 信息 ,并 负责 管理 文 
件 系统 的 命名 空间 和 客户 端 对 文件 的 访问 。 但 是 ,在 Hadoop 1.0 版 本 中 ,NameNode 只 有 
一 个 ,一 旦 这 个 NameNode 发 生 故 障 , 就 会 导致 整个 Hadoop 集群 不 可 用 ,也 就 是 发 生 了 单 
点 故障 问题 。 

为 了 解决 单 点 故障 问题 ,Hadoop 2.0 中 的 HDFS 增加 了 对 高 可 用 的 支持 。 在 高 可 用 
的 HDFS 集群 中 ,通常 有 两 台 或 者 两 台 以 上 的 机 器 充当 NameNode, 在 任意 时 间 内 ,都 要 保 
证 至 少 有 一 台 机 器 处 于 活动 (Active) 状 态 ,一 台 机 器 处 于 备用 (Standby) 状 态 。 处 于 活动 状 
态 的 NameNode 负责 处 理 客 户 端 请 求 ,而 处 于 备用 状态 的 NameNode 则 处 于 “随时 待命 ” 状 
态 。 一 旦 处 于 活动 状态 NameNode 节点 发 生 故 障 , 那 么 处 于 备用 状态 的 NameNode 会 立即 
接管 它 的 任务 并 开始 处 理 客户 端 请 求 ,保证 业务 不 会 出 现 明显 中 断 ,不 影响 系统 的 正常 对 外 
服务 。 接 下 来 ,通过 一 张 图 来 描述 HDFS 的 高 可 用 架构 .如 图 6-3 所 示 。 

图 6-3 所 示 的 高 可 用 架构 中 , 共 包 含 了 两 个 NameNode, 其 中 一 个 处 于 活动 状态 ,一 个 
处 于 备用 状态 ,活跃 状态 的 NameNode 将 更 新 的 数据 写 和 人 共享 存储 系统 中 ,备用 状态 的 
NameNode 会 一 直 监 听 共 享 存储 系统 ,一旦 发 现 有 新 的 数据 ,就 会 立即 从 共享 存储 系统 中 将 
这 些 数 据 加 载 到 自己 内 存 中 ,从 而 保证 与 活跃 状态 的 数据 同步 。 
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图 6-3 HDFS 的 高 可 用 架构 


Zookeeper 是 一 种 在 HDFS 高 可 用 集群 中 集中 提供 自动 故障 转移 功能 的 服务 , 它 为 每 
个 NameNode 都 分 配 了 一 个 故障 恢复 控制 器 (Zookeeper Failover Controller,ZKFC) ,该 控 
制 器 用 于 监控 NameNode 的 健康 状态 ,并 通过 “心跳 ”方式 定期 和 Zookeeper 保持 通信 。 一 
昌 NameNode 发生 故 障 ,Zookeeper 会 通知 备用 状态 的 NameNode 启动 ,使 其 成 为 活动 状态 
去 处 理 客户 端 请 求 , 从 而 实现 高 可 用 。 


6.3.2 搭建 Hadoop 高 可 用 集群 


掌握 了 Hadoop 集群 中 的 高 可 用 架构 后 , 接 下 来 , 教 大 家 搭建 一 个 Hadoop 高 可 用 集 
群 , 具 体 步骤 如 下 : 


1. 部 署 集群 节点 


规划 整个 集群 由 3 台 虚 拟 机 组 成 ,这 3 台 虚 拟 机 在 高 可 用 集群 中 的 部 署 规划 情况 如 
表 6-2 所 示 。 


表 6-2 集群 节点 分 布 


CE 
node-01 JV NA JV NA JV V/ V 
node-02 JV V Vv JV V V/ 
node-03 NA ~ Vv V 


表 6-2 所 示 的 3 个 服务 器 组 成 了 一 个 Zookeeper 集群 。 其 中 ,node-01 和 node-02 作为 
集群 的 NameNode, 需 要 运行 ZKFC 来 监控 NameNode 的 健康 状态 。 
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2. 环境 准备 


首先 ,搭建 普通 Hadoop 集群 (参考 第 2 章 完成 即 可 )。 需 要 注意 的 是 , 原 有 虚拟 机 系统 
主机 名 为 hadoop01, 建 议 初 学 者 在 搭建 Hadoop HA 集群 时 重新 安装 虚拟 机 ,以 此 来 巩固 前 
面 所 学 知识 ,并 将 3 台 虚 拟 主机 名 设置 为 node-01、node-02 和 node-03。 


3. 配置 Hadoop 高 可 用 集群 


(1) 修改 core-site. xml 文件 ,在 该 文件 中 配置 HDFS 端口 ,指定 Hadoop 临时 目录 和 
Zookeeper 集群 地 址 ,具体 参数 如 下 : 


(2) 修改 hdfs-site. xml 文件 ,配置 两 台 NameNode 端口 地 址 和 通信 方式 ,并 指定 
NameNode 的 元 数据 上 的 存放 位 置 ,开启 NameNode 失败 自动 切换 以 及 配置 sshfence( 通 过 
ssh 远程 登录 到 前 一 个 Active NameNode 并 将 其 结束 进程 ) ,具体 参数 如 下 : 
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(3) 修改 mapred-site. xml 文件 ,配置 MapReduce 计算 框架 为 YARN 方式 ,具体 参数 
如 下 : 


(4) 修改 yarn-site. xml 文件 ,开启 ResourceManager 高 可 用 ,指定 ResourceManager 
的 端口 名 称 地 址 ,并 配置 Zookeeper 集群 地 址 ,具体 参数 如 下 : 
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(5) 修改 slaves, 配 置 集群 主机 名 称 , 具 体 代码 如 下 : 
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(6) 修改 hadoop-env. sh, 配 置 JDK 环境 变量 .具体 代码 如 下 : 


将 配置 好 的 文件 分 发 传送 给 node-02 和 node-03 机 器 中 ,读者 可 以 根据 需求 自 定义 配 
置 /etc/profile 的 环境 变量 ,分 发 后 需要 重新 加 载 该 文件 。 


4. 启动 Hadoop 高 可 用 集群 
(1) 启动 集群 各 个 节点 的 Zookeeper 服务 ,命令 如 下 : 


(2) 启动 集群 各 个 节点 监控 NameNode 的 管理 日 志 的 JournalNode, 命 令 如 下 : 


(3) 在 node-01 节点 格式 化 NameNode, 并 将 格式 化 后 的 目录 复制 到 node-02 中 ,具体 
命令 如 下 : 


(4) 在 node-01 节点 上 格式 化 ZKFC, 命 令 如 下 : 


(5) 在 node-01 节点 上 启动 HDFS, 命 令 如 下 : 


(6) 在 node-01 节点 上 启动 YARN ,命令 如 下 : 


这 
Ee 
加 


本 章 主要 讲解 了 Hadoop 2. 0 的 新 特性 ,包括 YARN 资源 管理 框架 和 HDFS 的 高 可 
用 。 其 中 ,YARN 作为 资源 管理 框架 ,要 搞 清楚 它 的 体系 结构 和 工作 流程 ;HDFS 的 高 可 用 
性 能 够 解决 集群 的 单 点 故障 问题 ,要 掌握 高 可 用 架构 的 部 署 方式 ,并 会 独立 参考 文档 搭建 高 
可 用 的 Hadoop 集群 。 
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6.5 课 后 习题 


一 、 填空 题 

1. YARN 的 核心 组 件 包含 、 和 。 
2. ResourceManager 内 部 包含 了 两 个 组 件 ,分 别 是 和 
二 、 判 断 题 


1. ResourceManager 负责 监控 ApplicationMaster, 并 在 ApplicationMaster 运行 
的 时 候 重启 它 ,因此 ResouceManager 负责 ApplicationMaster 内 部 任务 的 容错 。 ( 
2. NodeManager 是 每 个 节点 上 的 资源 和 任务 管理 器 。 ( 
3. Hadoop HA 是 集群 中 启动 两 台 或 两 台 以 上 机 器 充当 NameNode, 避免 一 
NameNode 节点 发 生 故 障 导致 整个 集群 不 可 用 的 情况 。 ( 
4. Hadoop HA 是 两 台 NameNode 同时 执行 NameNode 角色 的 工作 。 ( 
5. 在 Hadoop HA 中 ,Zookeeper 集群 为 每 个 NameNode 都 分 配 了 一 个 故障 恢复 控制 


器 ,该 控制 器 用 于 监控 NameNode 的 健康 状态 。 
三 、 选 择 题 
1. 下 列 选项 中 哪些 是 Hadoop 2. x 版 本 独 有 的 进程 ? 〈 ) 
A. JobTracker B. TaskTracker 
C. NodeManager D. NameNode 
2. 下 列 选项 描述 错误 的 是 ?( ) 
A. Hadoop HA 即 集 群 中 包含 Secondary NameNode 作为 备份 节点 存在 
B，ResourceManager 负责 的 是 整个 YARN 集群 资源 的 监控 ,分 配 和 管理 工作 
C，NodeManager 负责 定时 地 向 ResourceManager 汇报 所 在 节点 的 资源 使 用 情况 
以 及 接收 并 处 理 来 自 ApplicationMaster 的 启动 停止 容器 的 各 种 请 求 
D. 初次 启动 Hadoop HA 集群 时 ,需要 将 格式 化 文件 系统 后 的 目录 复制 至 另外 一 
台 NameNode 节点 上 


四 、 简 答题 


1. 简 述 YARN 集群 的 工作 流程 。 
2. 简 述 Hadoop HA 集群 的 启动 步骤 。 
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7- 全 
Hive 数 据 仓 库 


学 习 目 标 

。 了 解 Hive 的 相关 功能 和 特点 。 
。 熟悉 Hive 的 简单 安装 和 配置 。 
。 掌握 HiveQL 的 相关 操作 。 


如 何在 分 布 式 环境 下 采用 数据 仓库 技术 从 大 量 的 数据 中 快速 获取 数据 的 有 效 价值 ? 
Hive 正 是 为 了 解决 这 种 问题 而 生 。Hive 起 源 于 Facebook( 一 个 美国 的 社交 服务 网 络 )， 
Facebook 公司 有 着 大 量 的 日 志 数 据 , 而 Hadoop 是 一 个 实现 了 MapReduce 模式 开源 的 分 布 
式 并 行 计算 框架 ,可 以 轻松 处 理 大 规模 的 数据 量 ,MapReduce 程序 虽然 对 于 熟悉 Java 语言 
的 工程 师 来 说 比较 容易 开发 ,但 是 对 于 其 他 语言 使 用 者 来 说 难度 较 大 。 为 此 Facebook 开发 
团队 想到 设计 一 种 使 用 SQL 语言 就 能 够 对 日 志 数 据 查询 分 析 的 工具 ,这 样 只 需要 懂 SQL 
语言 ,就 能 够 胜任 大 数据 分 析 方 面 的 工作 ,大 大 节省 开发 人 员 的 学 习 成 本 , Hive 则 诞生 
于 此 。 


7.1 数据 仓库 简介 


7.1.1 什么 是 数据 仓库 


数据 仓库 是 一 个 面向 主题 的 、 集 成 的 .随时 间 变 化 的 ,但 信息 本 身 相 对 稳定 的 数据 集合 ， 
它 用 于 支持 企业 或 组 织 的 决策 分 析 处 理 ,这 里 对 数据 仓库 的 定义 ,指出 了 数据 仓库 的 3 个 
特点 : 

(1) 数据 仓库 是 面向 主题 的 。 

操作 型 数据 库 的 数据 组 织 是 面向 事务 处 理 任务 ,而 数据 仓库 中 的 数据 是 按照 一 定 的 主 
题 域 进行 组 织 ,这 里 说 的 “主题 "是 一 个 抽象 的 概念 , 它 指 的 是 用 户 使 用 数据 仓库 进行 决策 时 
关心 的 重点 方面 ,一 个 主题 通常 与 多 个 操作 型 信息 系统 相关 。 例 如 ,商品 的 推荐 系统 就 是 基 
于 数据 仓库 设计 的 ,商品 的 信息 就 是 数据 仓库 所 面向 的 主题 。 

(2) 数据 仓库 是 随时 间 变 化 的 。 

数据 仓库 是 不 同时 间 的 数据 集合 , 它 所 拥有 的 信息 并 不 只 是 反映 企业 当前 的 运营 状态 ， 
而 是 记录 了 从 过 去 某 一 时 间 点 到 当前 各 个 阶段 的 信息 。 可 以 这 么 说 ,数据 仓库 中 的 数据 保 
存 时 限 要 能 满足 进行 决策 分 析 的 需要 (如 过 去 的 5 一 10 年 ) ,而 且 数据 仓库 中 的 数据 都 要 标 
明 该 数据 的 历史 时 期 。 
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(3) 数据 仓库 相对 稳定 。 

数据 仓库 是 不 可 更 新 的 。 因 为 数据 仓库 主要 目的 是 为 决策 分 析 提 供 数据 ,所 涉及 的 操 
作 主 要 是 数据 的 查询 ,一 旦 某 个 数据 存 人 数据 仓库 以 后 ,一 般 情况 下 将 被 长 期 保留 ,也 就 是 
数据 仓库 中 一 般 有 大 量 的 查询 操作 ,修改 和 删除 操作 很 少 ,通常 只 需要 定期 的 加 载 \ 刷 新 来 
更 新 数据 。 
[| 省 多 学 一 招 : OLTP 和 OLAP 

数据 处 理 大 致 可 以 分 为 两 类 ,分 别 是 联机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP)， 
其 中 : 

(1) OLTP 是 传统 关系 数据 库 的 主要 应 用 ,主要 针对 的 是 基本 的 日 常事 务 处 理 , 例 如 ， 
银行 转账 。 

(2) OLAP 是 数据 仓库 系统 的 主要 应 用 ,支持 复杂 的 分 析 操作 ,侧重 决策 支持 ,并 且 提 
供 直观 易 懂 的 查询 结果 ,例如 ,商品 的 推荐 系统 。 

接 下 来 ,通过 一 张 表 来 比较 OLTP 和 OLAP, 具 体 如 表 7-1 所 示 。 


表 7-1 OLTP 和 OLAP 的 对 比 


对 比 项 目 OLTP OLAP 
用 户 操作 人 员 ,底层 管理 人 员 决策 人 员 、 高 级 管理 人 员 
功能 日 常 操作 处 理 分 析 决 策 
DB 设计 基于 ER 模型 ,面向 应 用 星 型 /雪花 型 模型 ,面向 主题 
DB 规模 GB 至 TB 三 TB 
数据 最 新 的 、 细 节 的 、 二 维 的 、 分 立 的 历史 的 .聚集 的 、 多 维 的 、 集 成 的 
存储 规模 读 / 写 数 条 (甚至 数 百 条 ) 记 录 读 上 百 万 条 (甚至 上 亿 条 ) 记 录 
操作 频 度 非常 频繁 (以 秒 计 ) 比较 稀 松 (以 小 时 甚至 以 周 计 ) 
工作 单元 严格 的 事务 复杂 的 查询 
用 户 数 数 百 个 至 数 千 万 个 数 个 至 数 百 个 
度量 事务 吞吐 量 查询 吞吐 量 ,响应 时 间 


7.1.2 数据 仓库 的 结构 


数据 仓库 的 结构 包含 了 4 部 分 ,分 别 是 数据 源 、 数 据 存 储 及 管理 .OLAP 服务 器 和 前 端 
工具 。 接 下 来 ,通过 一 张 图 来 描述 ,具体 如 图 7-1 所 示 。 
下 面 针 对 图 7-1 中 的 各 个 部 分 进行 介绍 。 


1. 数据 源 


数据 源 是 数据 仓库 的 基础 , 即 系统 的 数据 来 源 , 通 常 包含 企业 的 各 种 内 部 信息 和 外 部 信 
息 。 内 部 信息 ,例如 存在 操作 数据 库 中 的 各 种 业务 数据 和 自动 化 系统 中 包含 的 各 类 文档 数 
据 ; 外 部 信息 ,例如 各 类 法 律 法 规 , 市 场 信息 .竞争 对 手 的 信息 以 及 外 部 统计 数据 和 其 他 相关 
文档 等 。 


a 
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数据 源 数据 存储 及 管理 OLAP 服 务 器 前 端 工具 
抽取 (Extract) 


操作 换 (Trans 
数据 库 晤 "| KR 一 Ll ma 
上 m5 | 和 
数据 报表 
文人 资料 | 


[ ] 数据 查询 
其 他 外 部 
信息 源 


[名 类 应 用 


图 7-1 数据 仓库 的 结构 


2. 数据 存储 及 管理 


数据 存储 及 管理 是 整个 数据 仓库 的 核心 。 数 据 仓库 的 组 织 管理 方式 决定 了 它 有 别 于 传 
统 数据 库 ,同时 也 决定 了 对 外 部 数据 的 表现 形式 。 针 对 系统 现 有 的 数据 ,进行 抽取 、 清 理 并 
有 效 集成 ,按照 主题 进行 组 织 。 数 据 仓库 按照 数据 的 获 盖 范围 可 以 划分 为 企业 级 数据 仓库 
和 部 门 级 数据 仓库 ,也 就 是 所 谓 的 数据 集 市 。 数 据 集 市 可 以 理解 为 是 一 个 小 型 的 部 门 或 者 
工作 组 级 别 的 数据 仓库 。 


3. OLAP 服务 器 


OLAP 服务 器 对 需要 分 析 的 数据 按照 多 维 数据 模型 进行 重组 ,以 支持 用 户 随时 进行 多 
角度 .多 层次 的 分 析 ,并 发 现 数据 规律 和 趋势 。 


4. 前 端 工具 


前 端 工具 主要 包含 各 种 数据 分 析 工 具 、 报 表 工 具 、 查 询 工 具 、 数 据 挖掘 工具 以 及 各 种 基 
于 数据 仓库 或 数据 集 市 开发 的 应 用 。 


7.1.3 数据 仓库 的 数据 模型 


在 数据 仓库 建设 中 ,一 般 会 围绕 着 星 状 模型 和 雪花 模型 来 设计 数据 模型 。 下 面 先 来 介 
绍 这 两 种 模型 的 概念 。 


1. 星 状 模型 


在 数据 仓库 建 模 中 , 星 状 模型 是 维度 建 模 中 的 一 种 选择 方式 。 星 状 模型 是 由 一 个 事实 
表 和 一 组 维度 表 组 合 而 成 ,并 且 以 事实 表 为 中 心 , 所 有 的 维度 表 直 接 与 事实 表 相 连 。 接 下 
来 ,通过 一 张 图 来 描述 星 状 模型 ,如 图 7-2 所 示 。 

在 图 7-2 中 ,所 有 的 维度 表 都 直接 连接 到 事实 表 上 ,维度 表 的 主键 放置 在 事实 表 中 , 作 
为 事实 表 与 维度 表 连 接 的 外 键 ,因此 .维度 表 和 事实 表 是 有 关联 的 ,然而 ,维度 表 与 维度 表 并 
没有 直接 相连 ,因此 ,维度 表 之 间 是 并 没有 关联 的 。 


2. 雪花 模型 


雪花 模型 也 是 维度 建 模 中 的 另 一 种 选择 , 它 是 对 星 状 模型 的 扩展 ,雪花 模型 如 图 7-3 


所 示 。 


广 品 维 表 
时 间 键 


产品 名 称 
产品 描述 
产品 价格 


部 门 维 表 


部 门 键 


产品 维 表 


时 间 键 


产品 名 称 
产品 描述 
产品 价格 


从 图 7-3 中 可 以 看 出 ,雪花 模型 的 维度 表 可 以 拥有 其 他 的 维度 表 , 并 且 维 度 表 与 维度 表 
之 间 是 相互 关联 的 。 因 此 ,雪花 模型 相 比 星 状 模型 更 规范 一 些 。 但 是 ,由 于 雪花 模型 需要 关 


事实 表 


地 域 键 
时 间 键 
部 门 键 
产品 键 


销售 数量 
销售 金额 


图 7-2 星 状 模型 
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地 域 维 表 


地 域 键 


家 
省 份 
城市 


时 间 维 表 
时 间 表 


年 
月 
日 


地 域 维 表 
地 域 键 
器 
事实 表 城市 
地 域 键 
时 间 键 
部 门 键 
产品 键 
销售 数量 时 间 维 表 
销售 金额 时 间 表 
年 
月 
日 
图 7-3 雪花 模型 


国家 维 表 


家 键 


国家 名 称 


省 份 维 表 


省 份 键 


省 份 名 称 


城市 维 表 


城市 键 


城市 名 称 
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联 多 层 的 维度 表 , 因 此 ,性 能 也 比 星 状 模型 要 低 , 所 以 一 般 不 是 很 常用 。 
人 Li 多 学 一 招 : 什么 是 事实 表 和 维度 表 

1. 事实 表 

每 个 数据 仓库 都 包含 一 个 或 者 多 个 事实 数据 表 , 事 实 表 是 对 分 析 主 题 的 度量 , 它 包 含 了 
与 各 维度 表 相 关联 的 外 键 , 并 通过 连接 (Join) 方 式 与 维度 表 关 联 。 

事实 表 的 度量 通常 是 数值 类 型 , 且 记 录 数 会 不 断 增 加 , 表 规 模 迅 速 增长 。 例 如 ,现存 在 
一 张 订单 事实 表 , 其 字段 Prod_id( 商 品 id) 可 以 关联 商品 维度 表 、TimeKey( 订 单 时 间 ) 可 以 
关联 时 间 维 度 表 等 。 

2. 维度 表 

维度 表 可 以 看 作用 户 分 析 数 据 的 窗口 ,维度 表 中 包含 事实 数据 表 中 事实 记录 的 特性 ,有 
些 特性 提供 描述 性 信息 ,有 些 特性 指定 如 何 汇总 事实 数据 表 数 据 ,以 便 为 分 析 者 提供 有 用 的 
信息 。 

维度 表 包 含 帮助 汇总 数据 的 特性 的 层次 结构 ,维度 是 对 数据 进行 分 析 时 特有 的 一 个 角 
度 , 站 在 不 同 角度 看 待 问题 ,会 有 不 同 的 结果 。 例 如 , 当 分 析 产品 销售 情况 时 ,可 以 选择 按照 
商品 类 别 .商品 区 域 进行 分 析 , 此 时 就 构成 一 个 类 别 、 区 域 的 维度 。 维 度 表 信息 较为 固定 , 且 
数据 量 小 ,维度 表 中 的 列 字段 可 以 将 信息 分 为 不 同 层 次 的 结构 级 。 


7.2 Hive 简介 


7.2.1 什么 是 Hive 


Hive 是 建立 在 Hadoop 文件 系统 上 的 数据 仓库 , 它 提供 了 一 系列 工具 ,能 够 对 存储 在 
HDFS 中 的 数据 进行 数据 提取 、 转 换 和 加 载 (ETL) ,这 是 一 种 可 以 存储 、 查 询 和 分 析 存储 在 
Hadoop 中 的 大 规模 数据 的 工具 。 

Hive 定义 了 简单 的 类 SQL 查询 语言 , 称 为 HQL., 它 可 以 将 结构 化 的 数据 文件 映射 为 
一 张 数据 表 ,允许 熟悉 SQL 的 用 户 查询 数据 ,也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 
的 mapper 和 reducer 来 处 理 复杂 的 分 析 工 作 , 相 对 于 Java 代码 编写 的 MapReduce 来 说 ， 
Hive 的 优势 更 加 明显 。 

由 于 Hive 采 用 了 SQL 的 查询 语言 HQL ,因此 很 容易 将 Hive 理解 为 数据 库 。 其 实 从 
结构 上 来 看 ,Hive 和 数据 库 除 了 拥有 类 似 的 查询 语言 ,再 无 类 似 之 处 。 接 下 来 ,以 传统 数据 
库 MySQL 和 Hive 的 对 比 为 例 ,通过 它们 的 对 比 来 帮助 大 家 理解 Hive 的 特性 ,具体 如 
表 7-2 所 示 。 


表 7-2 Hive 与 传统 数据 库 对 比 


对 比 项 Hive MySQL 
查询 语言 Hive QL SQL 

数据 存储 位 置 HDFS 块 设备 .本 地 文件 系统 
数据 格式 用 户 定义 系统 决定 
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续 表 

对 比 项 Hive MySQL 

数据 更 新 不 支持 支持 

事务 不 支持 支持 

执行 延迟 高 低 

可 扩展 性 高 低 

数据 规模 大 小 

多 表 插 入 支持 不 支持 


7.2.2 Hive 系统 架构 


Hive 是 底层 封装 了 Hadoop 的 数据 仓库 处 理工 具 , 它 运行 在 Hadoop 基础 上 ,其 系统 架 
构 组 成 主要 包含 4 个 部 分 ,分 别 是 用 户 接口 . 跨 语 言 服务 、 底 层 的 驱动 引擎 以 及 元 数据 存储 


系统 ,具体 如 图 7-4 所 示 。 

下 面 针 对 Hive 系统 架构 的 组 成 部 分 进行 讲解 。 

(1) 用 户 接口 : 主要 分 为 3 个 ,分 别 是 CLI、 
JDBC/ODBC 和 WebUI。 其 中 ,CLI 即 Shell 终端 命 
令 行 , 它 是 最 常用 的 方式 。JDBC/ODBC 是 Hive 的 
Java 实现 ,与 使 用 传统 数据 库 JDBC 的 方式 类 似 ， 
WebUI 指 的 是 通过 浏览 器 访问 Hive。 

(2) 跨 语 言 服务 (Thrift Server): Thrift 是 
Facebook 开发 的 一 个 软件 框架 ,可 以 用 来 进行 可 扩 
展 且 路 语言 的 服务 。Hive 集成 了 该 服务 ,能 让 不 同 
的 编程 语言 调用 Hive 的 接口 。 

(3) 底层 的 驱动 引擎 主要 包含 编译 器 
(Compiler) ,优化 器 (Optimizer) 和 执行 器 (Executor)， 
它们 用 于 完成 HQL 查询 语句 从 词法 分 析 、 语 法 分 
析 、 编 译 、 优 化 以 及 查询 计划 的 生成 ,生成 的 查询 计 


划 存 储 在 HDFS 中 ,并 在 随后 由 MapReduce 调用 执行 。 


Hive 
JDBC/ Web 
CH | |opBc UI 
Thrift i 
Server [Me Stor 


Driver 
(Compiler/Optimizer/Executor) 


Hadoop 
| NameNode | [ResourceManager| 


| DataNode | | NodeManager ] 


图 7-4 Hive 系统 架构 


(4) 元 数据 存储 系统 (Metastore) : Hive 中 的 元 数据 通常 包含 表 名 、 列 、 分 区 及 其 相关 
属性 , 表 数 据 所 在 目录 的 位 置信 息 , Metastore 默认 存在 自 带 的 Derby 数据 库 中 。 由 于 
Derby 数据 库 不 适合 多 用 户 操作 ,并 且 数 据 存 储 目录 不 固定 ,不 方便 管理 ,因此 ,通常 都 将 元 


数据 存储 在 MySQL 数据 库 。 
7.2.3 Hive 工作 原理 


Hive 建立 在 Hadoop 之 上 ,那么 它 和 Hadoop 之 间 是 如 何 工作 的 呢 ? 接 下 来 ,通过 一 张 


图 来 描述 ,具体 如 图 7-5 所 示 。 


接 下 来 ,针对 图 7-5 中 Hive 和 Hadoop 之 间 的 工作 过 程 进行 简单 说 明 , 具 体 如 下 : 
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Hive Hadoop 
6 . MAP/REDUCE, 
EXECUTION 6 JOB TRACKER 
ENGINE 
MAP/REDUCE TASKS 


6 TASK TRACKERS TASK TRACKERS 


(MAP) (REDUCE) 


MAP REDUCE 
OPERATOR OPERATOR 
TREE TREE 

SERDE 
DESERIALIZE R 


4 
| READS/WRHPTES TO | HDFS 


DRIVER 


COMPILER METASTORE 


图 7-5 Hive 和 Hadoop 之 间 的 工作 原理 
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(1) UI 将 执行 的 查询 操作 发 送 给 Driver 执行 。 

(2) Driver 借助 查询 编译 器 解析 查询 ,检查 语法 和 查询 计划 或 查询 需求 。 

(3) 编译 器 将 元 数据 请 求 发 送 到 Metastore。 

(4) 编译 器 将 元 数据 作为 对 编译 器 的 响应 发 送出 去 。 

(5) 编译 器 检查 需求 并 将 计划 重新 发 送 给 Driver。 至 此 ,查询 的 解析 和 编译 已 经 完成 。 
(6) Driver 将 执行 计划 发 送 给 执行 引擎 执行 Job 任务 。 

(7) 执行 引擎 从 DataNode 上 获取 结果 集 ,并 将 结果 发 送 给 UI 和 Driver。 


7.2.4 Hive 数据 模型 


Hive 中 所 有 的 数据 都 存储 在 HDFS 中 , 它 包 含 数据 库 (Database)、 表 (Table) .分 区 表 
(Partition) 和 桶 表 (Bucket)4 种 数据 类 型 ,其 模型 如 图 7-6 所 示 。 

下 面 针 对 Hive 数据 模型 中 的 数据 类 型 进行 介绍 。 

(1) 数据 库 : 相当 于 关系 数据 库 中 的 命名 空间 (namespace) , 它 的 作用 是 将 用 户 和 数据 
库 的 应 用 ,隔离 到 不 同 的 数据 库 或 者 模式 中 。 

(2) 表 : Hive 的 表 在 逻辑 上 由 存储 的 数据 和 描述 表格 数据 形式 的 相关 元 数据 组 成 。 表 
存储 的 数据 存放 在 分 布 式 文件 系统 里 ,如 HDFS。Hive 中 的 表 分 为 两 种 类 型 ,一 种 叫 作 内 
部 表 , 这 种 表 的 数据 存储 在 Hive 数据 仓库 中 ;一 种 叫 作 外 部 表 , 这 种 表 的 数据 可 以 存放 在 
Hive 数据 仓库 外 的 分 布 式 文件 系统 中 ,也 可 以 存储 在 Hive 数据 仓库 中 。 值 得 一 提 的 是 ， 
Hive 数据 仓库 也 就 是 HDFS 中 的 一 个 目录 ,这 个 目录 是 Hive 数据 存储 的 默认 路 径 , 它 可 
以 在 Hive 的 配置 文件 中 配置 ,最 终 也 会 存放 到 元 数据 库 中 。 

(3) 分 区 : 分 区 的 概念 是 根据 * 分 区 列 ” 的 值 对 表 的 数据 进行 粗略 划分 的 机 制 ,在 Hive 
存储 上 的 体现 就 是 在 表 的 主 目录 (Hive 的 表 实 际 显示 就 是 一 个 文件 夹 ) 下 的 一 个 子 目 录 , 这 
个 子 目 录 的 名 字 就 是 定义 的 分 区 列 的 名 字 。 
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| 数据 库 (Database) 


表 
(Table) 


分 区 (Partition) 


Partition 


Bucket || Bucket | Bucket 


图 7-6 Hive 的 数据 模型 


分 区 是 为 了 加 快 数据 查询 速度 设计 的 ,例如 ,现在 有 个 日 志文 件 ,文件 中 的 每 条 记录 都 
带 有 时 间 戳 。 如 果 根 据 时 间 来 分 区 ,那么 同一 天 的 数据 将 会 被 分 到 同一 个 分 区 中 。 这 样 的 
话 , 如 果 查 询 每 一 天 或 某 几 天 的 数据 就 会 变 得 很 高 效 ,因为 只 需要 扫描 对 应 分 区 中 的 文件 
即 可 。 

注意 : 分 区 列 不 是 表 里 的 某 个 字段 ,而 是 独立 的 列 , 根 据 这 个 列 查询 存储 表 中 的 数据 
文件 。 

(4) 桶 表 : 简单 来 说 , 桶 表 就 是 把 “大 表 ” 分 成 了 “小 表 ”。 把 表 或 者 分 区 组 织 成 桶 表 的 
目的 主要 是 为 了 获得 更 高 的 查询 效率 ,尤其 是 抽样 查询 更 加 便捷 。 桶 表 是 Hive 数据 模型 
的 最 小 单元 ,数据 加 载 到 桶 表 时 ,会 对 字段 的 值 进行 哈 希 取 值 ,然后 除 以 桶 个 数 得 到 余数 进 
行 分 桶 ,保证 每 个 桶 中 都 有 数据 ,在 物理 上 ,每 个 桶 表 就 是 表 或 分 区 的 一 个 文件 。 


7.3 Hive 的 安装 


7.3.1 Hive 安装 模式 简介 


Hive 的 安装 模式 分 为 3 种 ,分 别 是 嵌入 模式 .本 地 模式 和 远程 模式 。 下 面 针 对 这 3 种 
模式 进行 介绍 。 

(1) 艇 入 模式 : 使 用 内 内 的 Derby 数据 库存 储 元 数据 ,这 种 方式 是 Hive 的 默认 安装 方 
式 , 配 置 简单 ,但 是 一 次 只 能 连接 一 个 客户 端 ,适合 用 来 测试 ,不 适合 生产 环境 。 

(2) 本 地 模式 : 采用 外 部 数据 库存 储 元 数据 ,该 模式 不 需要 单独 开启 Metastore 服务 ， 
因为 本 地 模式 使 用 的 是 和 Hive 在 同一 个 进程 中 的 Metastore 服务 。 

(3) 远程 模式 : 与 本 地 模式 一 样 ,远程 模式 也 是 采用 外 部 数据 库存 储 元 数据 。 不 同 的 
是 ,远程 模式 需要 单独 开启 Metastore 服务 ,然后 每 个 客户 端 都 在 配置 文件 中 配置 连接 该 
Metastore 服务 。 远 程 模式 中 ,Metastore 服务 和 Hive 运行 在 不 同 的 进程 中 。 
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7.3.2 杠 入 模式 


嵌 人 模式 下 ,元 数据 保存 在 Derby 数据 库 中 , 且 只 允许 一 个 会 话 连接 , 若 尝试 多 个 会 话 
连接 时 会 报错 。 下 面 讲解 Hive 安装 之 嵌入 模式 的 配置 步骤 。 

首先 在 Apache 镜像 网 站 下 载 Linux 下 的 Hive 安装 包 ( 本 教材 使 用 1. 2. 1 版 本 ) ,下 载 
地 址 : http://archive. apache. org/dist/hive/hive-1. 2. 1/。 下 载 完 毕 后 ,将 安装 包 apache- 
hive-1. 2. 1-bin. tar. gz 上 传 至 Linux 系统 中 (本 次 操作 在 hadoop01 节点 上 进行 演示 说 明 ) 
的 /export/software 文件 夹 下 ,将 压缩 包 解压 至 /export/servers 文件 夹 下 ,命令 如 下 : 


$ tar - zf apache hive- 1.2.1- bin.tar.gz -C /export/servers/ 

典 入 模式 下 ,无须 对 Hive 配置 文件 进行 修改 ,只 需要 启动 Hive 安装 包 下 的 bin 目录 下 
的 Hive 程序 即 可 ,具体 指令 如 下 所 示 : 

$ bin/hive 


执行 上 述 指令 后 ,就 进入 到 Hive 交互 式 界面 ,效果 如 图 7-7 所 示 。 
[大 lszltalzllt-sercr aa ETIEEES| 


文件 (F) ”编辑 (E) ”查看 (V) ”选项 (O) ”传输 () 脚本 (S) ”工具 (D 。 帮助 (H) 
妇 罚 回 胡 将 | 汶 龟 的 | 吧台 与 | 本 估 ?1@@| 团 旧 


| 192.168.121.134 


Loggi uration in jar:file:/export/servers/apache-hive-1.2.1- 
是 /nyve -comnen 二 2 San Nero err pe 中 
ve> 


国 


就 绪 ssh2: AES-256-CTR 5，7 15 行 , 86 列 VT100 大写 数字 


图 7-7 Hive 交互 式 界面 


进入 如 图 7-7 所 示 的 Hive 交互 式 界面 后 ,就 可 以 输入 查询 数据 仓库 的 指令 进行 相关 操 
作 , 该 指令 与 MySQL 查询 数据 库 命令 一 致 。 

例如 ,在 Hive 交互 式 界 面 输入 “show databases” 指 令 查 看 当前 所 有 数据 库 列表 ,效果 
如 图 7-8 所 示 。 

从 图 7-8 可 以 看 出 ,使 用 与 MySQL 操作 相同 的 “show databases” 语 句 查 询 Hive 当前 
所 有 数据 库 列表 成 功 ,并 返回 唯一 一 个 default 数据 仓库 ,该 default 数据 仓库 是 Hive 自 带 
的 也 是 默认 的 存储 仓库 。 

当 退 出 Hive 客户 端 时 在 当前 路 径 下 默认 生成 了 derby. log 文件 ,该 文件 是 记录 用 户 操 
作 Hive 的 日 志文 件 ,由 于 嵌入 模式 元 数据 不 会 共享 ,那么 在 其 他 路 径 下 打开 Hive 客户 端 
会 创建 新 的 derby. log 文件 ,因此 上 一 客户 端 进行 的 任何 操作 当前 用 户 均 无 法 访问 。 
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[ 晶 192.168,121.134 - SecureCRT ey x) 
文件 ”编辑 (E) ”查看 (V) 选项 (O) 传 纺 (]) 膀 本 (S) 工具 (D 帮助 (H) 
ETISTETETETYT Tc 人 了 外 下 站 


| 192.158.121.134 


9oging initialized using configyration, in jar:file:/export/servers/apache-hive-1.2.1- 
Nib/hi -1.2.1. jar!/hive-1og4j. properties 


eC 


国 


ssh2: AES-256-CTR 9，7 15 行 , 86 列 VT100 大写 数字 
es E 


图 7-8 查询 Hive 数据 仓库 列表 


7.3.3 本 地 模式 和 远程 模式 


本 地 模式 和 远程 模式 安装 配置 方式 大 致 相同 ,本 质 上 是 将 Hive 默认 的 元 数据 存储 介 
质 由 自 带 的 Derby 数据 库 蔡 换 为 MySQL 数据 库 , 这 样 无 论 在 任何 目录 下 以 任何 方式 启动 
Hive, 只 要 连接 的 是 同一 台 Hive 服务 ,那么 所 有 节点 访问 的 元 数据 信息 是 一 致 的 ,从 而 实 
现 元 数据 的 共享 。 下 面 就 以 本 地 模式 为 例 ,讲解 安装 过 程 。 

本 地 模式 的 Hive 安装 主要 包括 两 个 步骤 : 首先 安装 MySQL 服务 ,再 安装 Hive。 具 体 
步骤 如 下 : 


1. 安装 MySQL 服务 


MySQL 安装 方式 有 许多 种 ,可 以 直接 解压 安装 包 进 行 相关 配置 ,也 可 以 选择 在 线 安 
装 , 本 节选 用 在 线 安装 MySQL 方式 。 在 线 安装 MySQL 的 具体 指令 和 说 明 如 下 : 


// 下 载 安装 so 

5 Yum install mysql mysql— server mysgl- devel 
/启动 SQL 服务 

5 /etc/init.d/mysqld start 
/ASQL 连 接 并 登录 MSL 服务 

S mysql 


上 述 指令 中 ,首先 通过 “yum install” 命 令 下 载 并 安装 MySQL 程序 ,并 且 启 动 MySQL 
服务 ,然后 就 可 以 使 用 MySQL 命令 连接 到 MySQL 客户 端 。 

接 下 来 ,进入 MySQL 客户 端 后 ,分 别 对 MySQL 数据 库 密码 进行 修改 (可 选 ) ,并 设置 
允许 远程 登录 权限 ,具体 指令 如 下 : 


// 收 改 登录 MySQL 用 户 名 及 密码 


mysql> USE mysql; 
Mysql> UPDATE user SET FasswordF PASSWORD('123456') WEERE user= "root'; 


// 设 置 允 许 远程 登录 
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2. Hive 的 配置 


(1) 修改 hive-env. sh 配置 文件 ,配置 Hadoop 环境 变量 。 
进入 Hive 安装 包 下 的 conf 文件 夹 ,将 hive-env. sh. template 文件 进行 复制 并 重 命名 为 
hive-env. sh, 具 体 指令 如 下 : 


然后 修改 hive-env. sh 配置 文件 ,添加 Hadoop 环境 变量 ,具体 内 容 如 下 : 


上 述 操作 是 设置 Hadoop 环境 变量 ,作用 是 无 论 系 统 是 否 配 置 Hadoop 环境 变量 ,在 
Hive 执行 时 ,一 定 能 够 通过 hive-env. sh 配置 文件 去 加 载 Hadoop 环境 变量 ,由 于 在 部 署 
Hadoop 集群 时 已 经 配置 了 全 局 Hadoop 环境 变量 ,因此 可 以 不 设置 该 参数 。 

(2) 添加 hive-site. xml 配置 文件 ,配置 MySQL 相关 信息 。 

由 于 Hive 安装 包 conf 目录 下 ,没有 提供 hive-site. xml 文件 ,这 里 需要 创建 并 编辑 一 个 
hive-site. xml 配置 文件 ,具体 内 容 如 下 所 示 : 
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<description> 密 码 < /description> 
< /roperty> 
的 


完成 配置 后 , Hive 就 会 把 默认 使 用 Derby 数据 库 方式 覆盖 。 这 里 需要 注意 的 是 ,由 于 
使 用 了 MySQL 数据 库 ,那么 就 需要 上 传 MySQL 连接 驱动 的 jar 包 到 Hive 安装 包 的 lib 文 
件 夹 下 ,本 教材 使 用 mysql-connector-java-5. 1. 32. jar, 使 用 rz 命令 上 传 即 可 。 至 此 就 完成 
了 本 地 模式 的 安装 。 

如 果 使 用 远程 模式 的 安装 方式 ,只 需要 将 hive-site. xml 配置 文件 中 的 localhost 修改 为 
具有 MySQL 服务 的 节点 IP 即 可 ,这 样 无 论 用 户 通 过 什么 路 径 启 动 Hive 客户 端 ,都 可 以 访 
间 相 同 的 元 数据 信息 。 


7.4 Hive 的 管理 


7.4.1 CLI 方 式 
Hive CLI 是 Hive 的 交互 工具 ,下 面 演示 几 种 CLI 的 使 用 。 
1. 启动 Hive 
直接 输入 # 二 HIVE_HOME 这 /bin/hive 启动 ,具体 如 图 7-9 所 示 。 
(EEECICIC ET 


Fle Edit Vew Oplions Transfer Script Tools Window Help 
生 轩 抽 六 Emer host <At+R> F 多 


[ep 


192168.121134 x |@ 192.168.121.134 (1) | @ 192168.121.135 | @ 192.168.121.136 4 
[rosegRagoopOI apache-RTve-T II-6TnJY DT7RTVe 


ogaing initialized using, configuration in jar;file:/export/servers/apache-hive-1.2.1-bin 
自 he Common-1. 2.1. jar /hive™1og¢]. properties 
ve> 


Session Manager nx 


日 辐 Sessions 
|- 网 192.158.121.134 
| - 司 192168121135 
二 192168121136 


ssh2: AES-256-CTR 5, 7 24Rows,89Cols VTI00 CAP NUM 


图 7-9 /bin/hive 启动 方式 
2. 退出 Hive 
命令 如 下 : 


hive> exit; 
hive> quit; 
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3. 查看 数据 仓库 中 的 表 
命令 如 下 : 


hive> show tables; 


4. 查看 数据 仓库 中 的 内 置 函 数 
命令 如 下 : 


hive> show functicnsy 


5. 清 屏 
命令 如 下 : 


hive> !clear 


7.4.2 远程 服务 


以 JDBC 或 者 ODBC 程序 登录 到 Hive 中 操作 数据 时 ,由 于 使 用 CLI 连接 方式 不 能 进 
行 多 个 节点 的 同时 访问 ,而 且 会 造成 服务 器 阻塞 , 且 出 于 对 服务 器 安全 性 的 考虑 ，Hive 服 
务 所 部 署 的 服务 器 通常 用 户 是 无 法 直接 访问 的 ,因此 ,必须 选用 远程 服务 启动 模式 。 具 体操 
作 步 又 如 下 。 

首先 ,将 hadoop01 服务 器 安装 的 Hive 程序 分 别 复制 到 hadoop02 和 hadoop03 服务 器 
上 ,具体 命令 如 下 : 


5$ sq -IT /export/servers/apache -hive- 1.2.]- bin/ hadioop02:/export/servers/ 
$ scp -r /export/servers/apache hive— 1.2.1- bin/ hadoop03:/export/servers/ 


其 次 ,在 hadoop01 服务 器 的 Hive 的 安装 包 下 启动 Hiveserver2 服务 ,具体 命令 如 下 : 
$ bin/hiveserver2 


执行 完 上 述 命令 后 ,在 hadoop01 服务 器 上 就 已 经 启动 了 Hive 服务 ,当前 的 命令 行 窗 
口 没有 任何 反应 ,无 法 执行 其 他 操作 ,如 图 7-10 所 示 。 

此 时 ,可 以 使 用 SecureCRT 软件 的 克隆 会 话 功 能 ( 右 击 会 话 窗 口 , 单 击 Clone Session 
选项 ) 打 开 新 的 hadoop01 会 话 窗 口 ,使 用 Jps 命令 可 以 查看 Hive 服务 启动 情况 ,效果 如 
图 7-11 所 示 。 

在 图 7-11 中 ,当前 hadoop01 机 器 上 新 增 了 一 个 RunJar 进程 ,该 进程 即 为 Hive 的 服务 
进程 。 

再 次 ,在 hadoop02 服务 器 的 Hive 安装 包 下 ,通过 远程 连接 命令 bin/beeline 进行 连接 ， 
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图 7-10 ”Hadoop01 服务 器 上 启动 Hive 的 效果 图 


ee Ei jps 


订 192168121134 ||1835 MameNode 
和 192168121135 ||238 Nodenanager 
二 192168121136 || [rootehadoop01 ~]# 目 


ssh2:AES-256-CTR 9, 20 13Rows,81Cols VT100 


图 7-11 hadoop01 服务 器 Hive 启动 情况 


并 且 输 入 连接 协议 ,然后 根据 提示 输入 Hive 服务 器 的 用 户 名 和 密码 , 即 可 连接 到 Hive 服 
务 , 具 体 指令 如 下 : 


// 输 入 远程 连接 命令 

$ bin/beeline 

// 输 入 远程 连接 协议 ,连接 到 指定 Hve 服 务 tadbap01) 的 主机 名 和 端口 欧 认 10000) 
beeline> ! connect jdbc:hive2://hadbap01:10000 

// 输 入 连接 Hive 服 务 器 的 用 户 名 和 密码 

Enter Username for jdbc:hive2://hadbop01:10000: root 

Enter password for jdbcshive2://hadbap01:10000: xxxx% 


在 上 述 命令 中 ,“!connect jdbc: hive2://hadoop01:10000” 用 于 指定 远程 Hive 连接 协 
议 。 其 中 ,hadoop01:10000 用 来 指定 要 远程 连接 的 Hive 服务 地 址 , Hive 服务 的 默认 端口 
号 为 10000。 执 行 上 述 指令 后 ,效果 如 图 7-12 所 示 。 

最 后 ,在 hadoop02 服务 器 执行 show databases 命令 ,查看 数据 仓库 的 列表 信息 。 效 果 
如 图 7-13 所 示 。 

在 图 7-13 中 ,执行 show databases 后 ,可 以 成 功 显 示 数 据 仓库 的 列表 信息 ,说 明 远 程 连 
接 Hive 服务 成 功 。 

小 提示 : 在 连接 Hive 数据 仓库 进行 相关 操作 时 ,会 使 用 到 数据 库 ( 如 MySQL) ,还 会 依 
赖 MapReduce 进行 数据 处 理 , 所 以 ,在 进行 Hive 连接 前 ,必须 保证 Hadoop 集群 以 及 第 三 
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图 7-13 查看 数据 仓库 的 列表 信息 


方 数据 库 MySQL 已 经 启动 ,否则 ,在 连接 过 程 中 会 出 现 拒 绝 连 接 的 错误 提示 。 


7.5 Hive 内 置 数 据 类 型 


Hive 的 内 置 数据 类 型 可 以 分 为 两 大 类 ,分 别 是 基础 数据 类 型 和 复杂 数据 类 型 。 接 下 
来 ,我 们 通过 两 张 表 来 列举 ,具体 如 表 7-3 和 表 7-4 所 示 。 


表 7-3 Hive 基本 数据 类 型 


数据 类 型 描 述 
TINYINT 1 字 节 有 符号 整数 ,一 128 一 127 
SMALLINT 2 字 节 有 符号 整数 ,一 32768 一 32767 
INT 4 字 节 有 符号 整数 ,一 ?2 一 2 一 1 
BIGINT 8 字 节 有 符号 整数 ,一 22 一 223 一 1 
FLOAT 4 字 节 单 精度 浮 点 数 
DOUBLE 8 字 节 双 精 度 浮 点 数 
DOUBLE PRECISION Double 的 别名 ,从 Hive 2. 2.0 开始 提供 
DECIMAL 任意 精度 的 带 符号 小 数 


NUMERIC 


同样 是 DECIMAL ,从 Hive 3.0 开始 
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续 表 
数据 类 型 描 述 
TIMESTAMP 精度 到 纳 秒 的 时 间 截 
DATE 以 年 /月 /日 形式 描述 的 日 期 
INTERVAL 表示 时 间 间 隔 
STRING 字符 串 
VARCHAR 同 STRING, 字 符 串 长 度 不 固定 
CHAR 固定 长 度 的 字符 串 
BOOLEAN 用 于 存储 真 值 (TRUE) 和 假 值 (FALSE) 
BINARY 字 节 数组 
表 7-4 Hive 复杂 数据 类 型 
数据 类 型 描 述 
ARRAY 一 组 有 序 字段 ,字段 类 型 必须 相同 


MAP 


一 组 无 序 键 值 对 。 键 的 类 型 必须 是 原子 类 型 , 值 可 以 是 任意 类 型 ,同一 个 映射 的 
键 的 类 型 必须 相同 , 值 的 类 型 也 必须 相同 


STRUCT 一 组 命名 的 字段 ,字段 的 类 型 可 以 不 同 


表 7-3 罗列 的 Hive 基本 数据 类 型 多 数 对 应 的 是 Java 中 的 类 型 ,其 中 : 

(1) TINYINT、 SMALLINT INT 以 及 BIGINT ,分 别 等 价 于 Java 中 的 byte .short ,int 
和 long 数据 类 型 ,它们 分 别 表示 的 是 1 字 节 、2 字 节 、4 字 节 和 8 字 节 的 有 符号 整数 。 

(2) FLOAT 和 DOUBLE 对 应 的 是 Java 中 的 float 和 double 类 型 ,分别 为 32 位 和 64 


位 浮 点 数 。 


(3) STRING 用 于 存储 文本 ,并 且 理论 上 最 多 可 以 存储 2GB 的 字符 数 。 

(4) BINARY 用 于 存储 变 长 的 二 进 制 数 据 。 

表 7-4 罗列 的 Hive 的 复杂 数据 类 型 中 ,ARRAY 和 MAP 这 两 种 数据 类 型 与 Java 中 的 同名 
数据 类 型 类 似 ,而 STRUCT 是 一 种 记录 类 型 , 它 封装 了 一 个 命令 的 字段 集合 。 复 杂 数 据 类 型 允 
许 任意 层次 的 嵌 套 ,其 声明 方式 必须 使 用 尖 括 号 指明 其 中 数据 字段 的 类 型 ,示例 代码 如 下 ， 


CEEAT TPEIE complex( 
coll RERRY< int> ， 


col2 Map< INT, SIRINS> ， 
col3 STRUCT< a:STRING, b:INT, Cc:DOBIE> 


7.6 ”Hive 数据 模型 操作 
7.6.1 Hive 数据 库 操作 


Hive 是 一 种 数据 库 技 术 , 可 以 定义 数据 库 和 数据 表 来 分 析 结构 化 数据 。 下面, 针对 
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Hive 数据 库 的 相关 操作 进行 介绍 ,具体 如 下 : 
(1) 创建 数据 库 ,语法 如 下 : 


CEEATE DATAEASE | SCHEMA [IF NOT EXISTS] database name 


在 上 述 语 法 格式 中 ,CREATE DATABASE 是 固定 的 HQL 语句 ,用 于 创建 数据 库 ， 
database_name 表示 创建 的 数据 库 名 称 ,这 个 名 称 是 唯一 的 ,其 唯一 性 可 以 通过 If Not 
Exists 进行 判断 。DATABASE|SCHEMA 是 用 于 限定 创建 数据 库 或 数据 库 模式 的 。 默 认 
情况 下 ,创建 的 数据 库存 储 在 /user/hive/warehouse/db_name. db/table_name/partition_ 
name/ 路 径 下 。 下 面 创建 一 个 名 为 itcast 的 数据 库 , 并 且 通 过 使 用 show databases 命令 , 显 
示 数 据 仓库 列表 信息 ,会 看 到 新 建 的 数据 库 itcast, 效 果 如 图 7-14 所 示 。 


ope mye IF HT0GGUFEFESEE darabase TT not EXTSES TECSSET 
9 2 S500d5) 
0000> show databases; 


+ 
"Ows selected (0.063 seconds) 
: jdbe:hive2://hadoopo1:10000> 国 


ssh2: AES-256-CTR 11, 33 11Rows, 88 Cols VT100 CAP NUM 


图 7-14 创建 数据 库 
(2) 显示 数据 库 , 语 法 如 下 : 
SHOW databases; 


在 上 述 语法 格式 中 ,SHOW databases 是 固定 的 HQL 语句 ,用 于 显示 数据 库 。 
(3) 查看 数据 库 详 情 . 语 法 如 下 : 


LESC DATAEASE| SCHEMA database name 


在 上 述 语 法 格式 中 ,DESC DATABASE database_name 是 固定 的 HQL 语句 ,用 于 查 
看 数据 库 详情 。 下 面 来 查看 数据 库 itcast 的 详情 ,效果 如 图 7-15 所 示 。 
(4) 切换 数据 库 , 语 法 如 下 : 


USE database name 


在 上 述 语 法 格式 中 ,USE database_name 是 固定 的 HQL 语句 ,用 于 切换 数据 库 。 
(5) 修改 数据 库 , 语 法 如 下 : 


在 上 述 语法 格式 中 ,ALTER database_name SET DBPROPERTIES 是 固定 的 HQL 语 
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图 7-15 查看 数据 库 详 情 


句 , 用 于 修改 数据 库 。 

(6) 删除 数据 库 , 语 法 如 下 : 

TEOP (DATAEASE| SCHEMA) [IE EXISTS] database name [FESTRICT| CASALE]; 

在 上 述 语法 格式 中 ,DROP database_name 是 固定 的 HQL 语句 ,用 于 删除 数据 库 。 

小 提示 : 在 删除 数据 库 时 , 若 数据 库 中 有 数据 表 , 则 必须 先 删 除数 据 表 ,才能 删除 数据 
库 。 也 可 以 使 用 drop database database_name cascade 命令 强制 性 删除 ,一 般 要 慎 用 。 
7.6.2 Hive 内 部 表 操 作 

在 7.6.1 节 中 ,完成 创建 数据 仓库 后 ,使 用 命令 use itcast 切换 到 新 创建 的 itcast 数据 
仓库 , 接 下 来 就 可 以 在 数据 库 中 进行 数据 表 的 创建 ,修改 等 相关 操作 。 其 中 Hive 中 创建 表 
的 基本 语法 格式 如 下 所 示 : 


@ 创建 表 语法 格式 如 下 : 


[TEMPCRRRY] [PXIEFRNRL] TREIE [IF NOT EXISTS] table name 
[(col_name data type [oOMENT col_cament],， …)] 

[CMMENT table comment] 

[PARTITIONED BY (col_name data type [OOMENT ool orment], *…)] 
[CIDSTERED BY (col name, ool nane, …) 

[SORIED BY (col_ name [ASCIIESC], *…)] INIO nm buckets BUCKETS] 
[ROW FCEMAT row_fommat] 

[STORED Rs file fommat] 

[IIocmTGN hafs path] 


@ 复制 表 语 法 格式 如 下 : 


[TEMPORARY] [EXIERNAL] TABIE [IF NOT EXISTS] [db name.]table name 
LIKE existing table or View name [IOCMTTION hafs path]; 


上 述 语法 格式 中 ,声明 了 两 种 创建 Hive 表 的 语法 格式 : 第 一 种 ,用 于 创建 自 定义 的 


Hive 数据 表 ; 第 二 种 .用 于 在 已 有 表 的 基础 上 复制 新 的 表 , 这 种 语法 只 会 复制 表 的 结构 ,不 
会 复制 表 中 的 数据 。 另 外 ,如 果 创 建 的 表 名 已 经 存在 ,与 创建 数据 仓库 一 样 会 抛 出 异常 ,用 
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户 可 以 使 用 IF NOT EXISTS 选项 来 忽略 这 个 异常 。 

需要 说 明 的 是 ,上 述 创建 Hive 数据 表 的 语法 中 ,[ ] 中 包含 的 内 容 为 可 选项 ,在 创建 表 
的 同时 可 以 声明 很 多 约束 信息 ,其 中 重要 参数 的 说 明 如 下 : 

。 TEMPORARY: 创建 一 个 临时 表 , 该 表 仅 对 当前 会 话 可 见 。 临 时 表 数 据 将 存储 在 
用 户 的 暂 存 目录 中 .并 在 会 话 结 束 时 删除 。 
EXTERNAL: 创建 一 个 外 部 表 , 这 时 就 需要 指定 数据 文件 的 实际 路 径 (hdfs_path)。 
忽略 EXTERNAL 选项 时 ,默认 创建 一 个 内 部 表 , Hive 会 将 数据 文件 移动 到 数据 仓 
库 所 在 的 文件 夹 下 ,而 创建 外 部 表 时 , 仅 记录 数据 所 在 的 路 径 , 并 不 会 移动 数据 文件 
的 位 置 。 
PARTITIONED BY : 创建 带 有 分 区 的 表 , 一 个 表 可 以 拥有 一 个 或 者 多 个 分 区 ,每 个 
分 区 以 文件 夹 的 形式 单独 存在 于 表 文 件 夹 的 目录 下 , 表 和 列 名 不 区 分 大 小 写 ,分 区 
是 以 字段 的 形式 在 表 结 构 中 存在 ,通过 Describe table_name 命令 可 以 查看 到 字段 
存在 ,但 是 该 字段 不 存放 实际 的 数据 内 容 , 仅 仅 是 分 区 的 表示 。 
CLUSTERED BY: 对 于 每 个 表 或 者 分 区 ,可 以 进一步 将 若干 个 列 放 和 一 个 桶 中 ,分 
桶 的 目的 一 是 为 了 获得 更 高 的 查询 效率 ,二 是 使 取样 更 高 效 。 
SORTED BY: 对 列 排序 的 选项 ,可 以 提高 查询 性 能 。 
ROW FORMAT: 行 格式 是 指 一 行 中 的 字段 存储 格式 , Hive 默认 采用 “\001’ 作 为 
分 隔 符 (Linux 系统 下 使 用 Vi 编辑 器 输入 Ctrl 十 V 和 Ctrl 十 A 所 组 成 的 字符 , 记 作 
^A), 它 通常 不 会 出 现在 数据 文件 中 ,因此 在 加 载 数据 时 ,需要 选用 合适 的 字符 作为 
分 隔 符 来 映射 字段 ,否则 表 中 数据 为 NULL。 在 编写 ROW FORMAT 选项 参数 
时 ,可 以 选用 以 下 指定 规则 : 


IOW_fommat 
: TELIMITED 
[FIELDS TERMINATED BY char [ESCAPED BY char]] 
[OOLLECTION TTEMS TEFMINATED BY char] 
MAP KEYS TEFMINATED BY char] [LINES TERMINRTED BY char] 
[NULL TEFINED RS char] 


。 STORED AS: 指 文件 存储 格式 ,默认 指定 Textfile 格式 ,导入 数据 时 会 直接 把 数据 
文件 复制 到 HDFS 上 不 进行 处 理 ,数据 不 压缩 ,解析 开销 较 大 。 在 编写 STORED 
AS 选项 参数 时 ,可 以 选用 以 下 指定 规则 : 


file fommat: 
: SECUENEFTE 
| TERTETE 

| RCRTIE 

1 GEC 
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| ERRRUET 

| AVFO 

| JSCONETE 

| INEUTFOEMRT input fommat classname CUTFUTEORMT 
utput format classname 


。 LOCATION: 指 需 要 映射 为 对 应 Hive 数据 仓库 表 的 数据 文件 在 HDFS 上 的 实际 
路 径 。 
在 对 创建 Hive 数据 表 的 语法 格式 有 所 了 解 后 , 接 下 来 ,就 通过 几 个 示例 来 演示 说 明 
Hive 数据 表 的 具体 创建 方式 。 
(1) 针对 基本 类 型 建 表 。 
首先 ,在 hadoop01 机 器 的 /export/data 目录 下 创建 hivedata 目录 ,在 该 文件 夹 下 创建 
user. txt 文件 ,并 添加 如 下 数据 内 容 : 


lallen,18 
2vtam23 
3,jerry,28 


针对 hivedata 目录 准备 的 结构 化 文件 user. txt 先 创 建 一 个 内 部 表 t_user, 具 体 示例 
如 下 : 


hive> create table t user(id int,name string,age int) 
ROW FCFMAT DELIMTTED FIELDS TEFMINATED BY "7 


上 述 建 表 语 句 中 ,根据 结构 化 文件 user. txt 的 具体 内 容 及 信息 创建 了 具体 有 id、name、 
age 字段 的 内 部 表 t_user, 同 时 使 用 ROW FORMAT 选项 指定 了 映射 文件 的 分 隔 符 为 *,”。 
创建 成 功 后 ,通过 Web UI 打开 Hive 内 部 表 所 在 HDFS 路 径 ( 内 部 表 默 认 /user/hive/ 
warehouse/itcast. db/t_user) 进 行 查看 ,如 图 7-16 所 示 。 


Browse Directory 


/user/hive/warehouse/itcast. db/t_user 


Permission Owner Group Size LastModified Replication BlockSize 


Hadoop, 2017. 


图 7-16 Hive 表 所 在 位 置 


从 图 7-16 可 以 看 出 ,在 对 应 的 itcast 数据 库 下 创建 了 定义 的 t_user 数据 表 , 但 是 当前 
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表 文 件 夹 内 为 空 ,这 是 因为 执行 上 述 指令 ,会 将 结构 化 文件 移动 到 内 部 表 所 在 文件 夹 下 , 通 
过 远程 连接 访问 itcast 数据 仓库 下 的 t_user 表 信 息 ,结果 如 图 7-17 所 示 。 


力 1921683121.135 - SecureCRT 
ee pons Teele Soi Teole._ Weiow Nelp 


局 192168121134 
二 192.168.121.135 


+ + + 
3 rows selected (0.59 seconds) 
本 0: jdbc:hive2://hadoop01:10000> 


ssh2: AES-256-CTR 10, 33 10 Rows, 64 Cols 


图 7-17 t_user 表 信 息 


从 图 7-17 可 以 看 出 ,结构 化 数据 与 表 映 射 成 功 。 针 对 基本 数据 类 型 ,非常 容易 选择 分 
隔 符 字段 。 但 是 , 当 针对 复杂 数据 类 型 时 ,就 需要 考虑 其 他 分 隔 符 字段 选项 。 

(2) 针对 复杂 类 型 数据 建 表 。 

例如 , 现 有 结构 化 数据 文件 student. txt, 文 件 内 容 如 下 所 示 。 


lzhangsan, 唱 歌 :非常 喜欢 -跳舞 :喜欢 -游泳 :一 般 般 
2,1isi, 打 游戏 :非常 喜欢 -篮球 :不 喜欢 


通过 对 student. txt 文件 内 容 分 析 得 出 ,可 以 设计 为 3 列 字 段 , 即 编号 、 姓 名、 兴趣 ,其 中 
编号 可 以 为 int 类 型 ,姓名 可 以 为 string 类 型 ,而 兴趣 列 还 需要 进一步 分 隔 为 Map 类 型 , 因 
此 在 创建 student. txt 文件 对 应 的 内 部 表 语句 如 下 所 示 : 


hive> create table 七 student (id int,name string,hckby map< string, string> ) 
IOW fommat delimited fields terminated by ',' 
collecticn items terminated by '—' 
Tap keys terminated by ':';» 


上 述 建 表 语句 中 ,通过 对 student. txt 文件 结构 化 文件 的 分 析 , 先 通过 逗号 *,” 对 多 个 字 
段 fields 进行 分 隔 ; 接 着 ,针对 hobby 字段 列 , 通 过 横 线 “一 ”进行 集合 列 分 隔 ; 最 后 ,再 针对 
每 一 个 爱好 ,通过 冒号 ”: "进行 分 隔 , 最 终 为 “key: value” 形 式 。 执 行 上 述 建 表 语 句 后 ,就 会 
在 默认 的 /user/hive/warehouse/itcast. db 文件 夹 下 生成 一 个 t_student 文件 夹 。 此 时 ,还 
必须 将 前 面 的 结构 化 文件 student. txt 上 传 到 该 文件 夹 下 进行 映射 ,才能 生成 对 应 的 内 部 表 
数据 ,上 传 完 成 后 再 次 查询 生成 的 t_student 表 信 息 , 如 图 7-18 所 示 。 

通过 上 面 的 两 个 创建 Hive 表 的 案例 可 知 ,在 创建 Hive 内 部 表 时 ,必须 注意 以 下 两 点 : 
第 一 , 建 表 语句 必须 根据 结构 化 文件 内 容 和 需求 ,指定 匹配 的 分 隔 符 ;第 二 ,在 创建 Hive 内 
部 表 时 ,执行 建 表 语 句 后 ,还 必须 将 结构 化 文件 移动 到 对 应 的 内 部 表 文 件 夹 下 进行 映射 , 才 
能 够 生成 对 应 的 数据 。 
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力 152166121135 -SeaureCRT 


File Edt View Options Transfer Script Tools Window Help 
BC Enter host <Alt+R> 


adoopoT :10000> select “Trom Tstud 
student. nane” 让 


i 
|Fiter by session name <h X 
日 - 国 Sessions 
局 192168121134 
局 192168121135 


tstudent. hobby 


selected Se 
: jdbc:hivez://hadoopol:10000> 国 


轴 192.168.121.136 


ssh2: AES-256-CTR 9, 33 10Rows,88 Cols VT100 


图 7-18 t_student 表 信 息 


7.6.3 Hive 外 部 表 操 作 


在 7.6.2 节 中 ,讲解 了 内 部 表 , 即 不 添加 关键 字 External, 内 部 表 与 结构 化 数据 文件 要 
想 产 生 关系 映射 ,那么 数据 文件 就 必须 在 指定 的 内 部 表 文件 夹 下 , 当 遇 到 大 文件 的 情况 时 ， 
移动 数据 文件 非常 耗 时 ,这 就 需要 创建 外 部 表 , 因 为 它 不 需要 移动 结构 化 数据 文件 。 下 面 通 
过 一 个 小 案例 来 对 外 部 表 进 行 讲解 。 

现 有 结构 化 数据 文件 student. txt, 且 数据 内 容 如 文件 7-1 所 示 。 

文件 7-1 student. txt 


95001L, 李 勇 , 男 ,20,Cs 
95002, 刘 晨 , 女 ,19,IS 
95003, 王 敏 , 女 ,2 
95004, 张 立 , 男 ,19,IS 
95005, 刘 刚 , 男 , 18 
95006, 孙 庆 , 男 ,23,C3 
95007, 易 思 玲 , 女 ,19M 
95008, 李 娜 , 女 ,18,CS 
95009, 梦 圆 图 , 女 ,18,MA 
95010, 孔 小 涛 , 男 ,19,CS 
95011, 包 小 柏 , 男 ,18,MR 
95012, 孙 花 , 女 ,20,GS 
95013, 冯 伟 , 男 ,21,cS 
14 95014, 王 小 丽 , 女 ,19,Cs 
15 9%5015, 王 君 , 男 ,18, 
16 ”95016' 钱 国 , 男 ,2 
了 7 95017, 王 风 娟 , 女 ,18,IS 
18 95018, 王 一 , 女 ,19,IS 
19 ”95019, 邢 小 丽 , 女 ,19,1S 
20 ”95020, 赵 钱 , 男 ,21,IS 
a 
2 


BEBESeeoe oonwor 


95021 周 二 , 男 ,TAR 
95022, 郑 明 , 男 ,20 


首先 ,我 们 将 student. txt 文件 上 传 至 HDFS 上 的 /stu 路 径 下 ,用 来 模拟 生产 环境 下 的 
数据 文件 ,具体 命令 如 下 所 示 : 
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$ hadoop f5 -mdir /sb 
$ hadoop £5 -put student.txt /stu 


其 次 ,创建 一 张 外 部 表 , 具 体 语法 如 下 所 示 : 


hive> create extemal table student ext (Sno int,Sname string, 

IOW fommat delimited fields terminated by ',' locatian ‘/stu'; 

在 上 述 代 码 中 ,create external table 表示 创建 一 个 外 部 表 的 固定 语法 格式 ;location 则 
表示 在 HDFS 上 数据 文件 的 路 径 。 

再 次 ,查看 itcast 数据 库 中 的 数据 表 , 具 体 语 法 如 下 所 示 : 


hive> show tables; 


执行 上 述 语句 后 ,效果 如 图 7-19 所 示 。 


加 192168121135 - SecureCRT 
i 
证 罚 昌 凋 ,Enter host <At+R> a or 


El 下 Sessions 
-二 192.168.121.134| 
| 网 192.168.121.135|+ i 
二 192.168.121136|||3 rows selected (0.092 seconds) 


| TR 9, 331 9 Rows, 73Cols VT100 CAP NUM 


图 7-19 student_ext 表 


在 图 7-19 中 ,可 以 看 到 student_ext 外 部 表 已 经 创建 成 功 。 
最 后 ,HQL 对 数据 表 的 内 容 的 查看 、 增 加 、 删 除 以 及 修改 的 语句 均 与 SQL 语句 一 致 。 
下 面 以 查看 数据 表 内 容 为 例 进行 演示 ,具体 语法 如 下 所 示 


hive> select * fram student ext; 


执行 上 述 语句 后 ,效果 如 图 7-20 所 示 。 

在 图 7-20 中 ,文件 student. txt 和 数据 表 student_ext 已 经 完成 映射 。 通 过 Web UI 打 
开 Hive 数据 库 的 默认 HDFS 路 径 (/user/hive/warehouse/itcast. db) 进 行 查看 ,路 径 下 并 
没有 发 现 创建 student_ext 文件 夹 。 

小 提示 : Hive 创建 内 部 表 时 ,会 将 数据 移动 到 数据 库 指 向 的 路 径 ; 创 建 外 部 表 时 , 仅 记 
录 数 据 所 在 的 路 径 , 不 会 对 数据 的 位 置 做 任何 改变 。 在 删除 表 的 时 候 , 内 部 表 的 元 数据 和 数 
据 会 被 一 起 删除 ,而 外 部 表 只 删除 元 数据 ,不 删除 数据 。 


7.6.4 Hive 分 区 表 操 作 
分 区 表 是 按照 属性 在 文件 夹层 面 给 文件 更 好 的 管理 ,实际 上 就 是 对 应 一 个 HDFS 上 的 
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EF es CT x | 二 IE 


oPOT -T0000> SETECE “TrOm SCUGERICEXET 

局 192168121134| 刘 晨 | 玄 1 

各 192168.121135| 二 要 喜 we 

司 19216s121136 EU Ei 18 本 
逢 庆 1 男 1 23 1 cs 1 
易 思 玲 1 去 1 19 1 MA 1 
了 1 文 1 18 1 cs 1 
大 本田 人 lis 1A | 
好 小 济 1 至 | 2 | 给 | 
包 小 柏 1 罗 1 18 1 mA 1 
贰 生 | 玄 20 CS 
i 时 21 CS 
EZ Es 1 Tcs ! 
要 二 | 丢 1 六 | 疏 | 
三 风声 1 去 Lis Tas 1 
这 小 本 1 二 1 Is 1 
赵 铸 1 本 121 11s | 
局 三 1 呈 117 | NA | 

1 号 1 20 | mA | 
|32 rows seiected CO.153 seconds5 
IB te | 


Ready ssh2: AES-256-CTR 23, 33 29 Rows 105 Cols VT100 CAP NUM 
忆 二 一 一 人 一 - 


图 7-20 student_ext 表 内 容 


独立 文件 夹 ,该 文件 夹 下 是 该 分 区 所 有 的 数据 文件 。Hive 中 的 分 区 就 是 分 目录 ,把 一 个 大 
的 数据 集 根据 业务 需要 分 割 成 小 的 数据 集 。 在 查询 时 通过 WHERE 子 句 中 的 表达 式 选择 
查询 指定 的 分 区 ,这 样 的 查询 效率 会 提高 很 多 。Hive 分 区 表 一 共有 两 种 ,分 别 为 普通 分 区 
和 动态 分 区 ,下 面 分 别 进行 介绍 。 


1. Hive 普通 分 区 


创建 分 区 表 分 为 两 种 ,一 种 是 单 分 区 ,也 就 是 说 在 表 文 件 夹 目录 下 只 有 一 级 文件 夹 目 
录 。 另 外 一 种 是 多 分 区 , 表 文件 夹 下 出 现 多 文件 夹 嵌 套 模 式 , 现 在 只 针对 单 分 区 进行 详解 ， 
若 想 学 习 多 分 区 可 以 参考 官网 的 官方 文档 。 
结构 化 数据 文件 user_p. txt, 文 件 中 的 数据 内 容 如 文件 7-2 所 示 。 
文件 7-2 user_p. txt 


Lallen 
2,tam 
3,jery 


首先 ,创建 分 区 表 。 语 法 格式 如 下 所 示 : 


hive> create table t user plid int, name string) 
ITOW fommat delimited fields terminated by ','; 


其 次 ,加 载 数据 是 将 数据 文件 移动 到 与 Hive 表 对 应 的 位 置 , 从 本 地 (Linux) 复 制 或 移 
动 到 HDFS 的 操作 。 由 于 分 区 表 在 映射 数据 时 不 能 使 用 Hadoop 命令 移动 文件 ,需要 使 用 
Load 命令 ,其 语法 格式 如 下 所 示 : 


IOAD DATA [IOCAL] INPATH 'filepath' [OVEFWRITE] 
INIO TABLE table name [PARTITION (partooll= vall, partool2 val2*…)] 
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Load Data 是 HQL 固定 的 数据 装载 语句 ,下 面 针对 部 分 关键 字 进 行 讲 解 。 

。 filepath: 它 可 以 引用 一 个 文件 (在 这 种 情况 下 ,Hive 将 文件 移动 到 表 所 对 应 的 目录 
中 ) ,或 者 它 可 以 是 一 个 目录 (在 这 种 情况 下 ,Hive 将 把 该 目录 中 的 所 有 文件 移动 到 
表 所 对 应 的 目录 中 )。 它 可 以 是 相对 路 径 、 绝 对 路 径 以 及 完整 的 URI。 

Local: 如 果 指 定 了 Local 关键 字 ,Load 命令 将 在 本 地 文件 系统 (Hive 服务 启 ei 
中 查找 文件 路 径 , 将 其 复制 到 对 应 的 HDFS 路 径 下 ;如 果 没 有 指定 Local 关键 字 

将 会 从 HDFS 中 移动 数据 文件 至 对 应 的 表 路 径 下 。 

Overwrite: 如 果 使 用 了 Overwrite 关键 字 , 当 加 载 数据 时 目标 表 或 分 区 中 的 内 容 会 
被 删除 ,然后 再 将 filepath 指向 的 文件 或 目录 中 的 内 容 添 加 到 表 或 分 区 中 。 简 单 地 
说 就 是 覆盖 表 中 已 有 数据 ; 若 不 添加 该 关键 字 , 则 表示 追加 数据 内 容 。 

加 载 数据 操作 的 语法 格式 如 下 所 示 


hive> load data local inpath "/hivedata/user p.txt' into tablet user p 

partition (oountry= 'USA'); 

从 上 述 语句 看 出 ,load data 表示 装载 数据 ,inpath 表示 数据 文件 所 在 的 HDFS 路 径 ， 
partition(country 一 “USA’) 为 指定 的 分 区 , 它 需 要 与 建 表 时 设置 的 分 区 字段 保持 一 致 。 执 
行 完 上 述 命令 后 ,查看 表 内 容 的 数据 ,效果 如 图 7-21 所 示 。 

力 192.168.121.135 - SecureCRT [sle| zx) 


de balp 
二 下 本 油 jEnter host <Alt+R> 的 好 


Session Manager 


Filter by session name < X 
日 - 国 Sessions 

二 192.168.121.134| 

克 192.168.121.135 


+ 十 
kg rm selected (0.163 Setongs) 
曙 192168121136| |6."9dbc iveDY /hadoopoi e10000: 


ssh2: AES-256-CTR 10, 33 10Rows, 66 Cols VT100 


图 7-21 tuser_p 中 的 数据 


从 图 7-21 中 可 以 看 出 ,分 区 表 与 结构 化 数据 完成 映射 。 通 过 查看 HDFS 的 Web UTI， 
可 以 看 到 Hive 创建 了 以 分 区 字段 为 名 的 文件 夹 ,而 该 文件 夹 内 存储 的 是 结构 化 数据 文件 。 
效果 如 图 7-22 所 示 。 

再 次 ,新 增 分 区 。 语 法 格式 如 下 所 示 。 


hive> ALTER TAEIE table name ALD PARTITION (comtry= 'China') location 
/user/hive/warehouse/itcast.db/t._ user p/oomtry= China'; 


上 述 语句 中 , ALTER TABLE 是 固定 的 HQL 语句 ,用 于 新 增 数据 表 和 修改 数据 表 。 
执行 上 述 语句 ,通过 HDFS 的 Web UI 可 以 看 到 新 增 的 分 区 country 二 China。 效 果 如 
图 7-23 所 示 。 
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D Browsing HDFS 


€ > C ©® hadoop0l50070/explorer.html#/user/hive/warehouse/itcast.db/t user p 


| /user/hive/warehouse/itcast.db/t_user_p 


Permission 。 Owner ”Group Size Last Modified 
dw root 。 supergroup 0B 2018/9/29 下午 11:13200 


图 7-22 分 区 文件 


i 
DD Browsing HDFS 


Browse Directory 


/user/hive/warehouse/itcast.db/t_user_p Gol 
Permission = owner Group Size Last Modified Replication Blocksize 。 Name 
drwxrarx root supergroup 0B 2018/9/30 上午 120807 0 0B country=China 
drwxrxrx root supergroup 0B 2018/9/29 下 411:1300 0 0B county=USA 


Hadoop, 2017. 


图 7-23 新 增 分 区 


接着 ,修改 分 区 。 语 法 格式 如 下 所 示 。 


hive> ALTER TABIE table name ERRTTTICN (coontry= 'China') FENAME TO PARTITION 
(Country= 'Japan'); 


执行 上 述 语句 ,通过 HDFS 的 Web UI 可 以 看 到 修改 后 的 分 区 country 王 Japan。 效 果 
如 图 7-24 所 示 。 


"QO Browsing HDFS 


€ > CC ©® hadoop01:50070/explorerhtml#/user/hive/warehouse/itcastdb/tuserp 


| /user/hive/warehouse/itcast.db/t_user_p 


Permission 。 owner ”Group Size Last Modified 
drwrxrx root supergroup 0B 。 2018/9/30 上 午 123201 country=Japan 


drwrxrx root supergroup 0B 2018/9/29 下 午 11:13:00 country=USA 


图 7-24 修改 分 区 


最 后 ,删除 分 区 。 语 法 格式 如 下 所 示 : 
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hive> ALTER TAEIE table name DROP IE EXISTS FARITTTION (oontry= ‘Japan'); 


执行 上 述 语句 ,通过 HDFS 的 Web UI 已 经 看 不 到 分 区 country 一 Japan。 效 果 如 
图 7-25 所 示 。 


一 


癌 口 Browsing HDFS 其 


€ > CC ©® hadoop0l:50070/explorer.html#/user/hive/warehouse/itcast.db/t user p 


| /user/hive/warehouse/itcast.db/t_user_p Gol | | 


Permission 。 owner Group Size Last Modified Replication 。 Block size 。 Name 
drwxr-xr-x root supergroup oB 2018/9/29 下 午 11:13:00 0 0B 


Hadoop, 2017. 


图 7-25 删除 分 区 


小 提示 : 分 区 字段 不 能 与 已 存在 字段 重复 , 且 分 区 字段 是 一 个 虚拟 的 字段 , 它 不 存放 任 
何 数 据 ,该 数据 来 源 于 装载 分 区 表 时 所 指定 的 数据 文件 。 


2. Hive 动态 分 区 


上 面 介绍 了 Hive 普通 分 区 的 创建 和 Load 命令 加 载 数据 的 操作 。 在 默认 情况 下 ,加 载 
数据 时 需要 手动 设置 分 区 字段 ,并 且 针 对 一 个 分 区 就 要 写 一 个 插入 语句 。 如 果 源 数据 量 很 
大 时 (例如 , 现 有 许多 日 志文 件 , 要 求 按照 日 期 作为 分 区 字段 ,在 插入 数据 的 时 候 无 法 手动 添 
加 分 区 ) ,就 可 以 利用 Hive 提供 的 动态 分 区 ,可 以 简化 插入 数据 时 的 繁琐 操作 , 若 想 实 现 动 
态 分 区 , 则 需要 开启 动态 分 区 功能 ,具体 命令 如 下 所 示 : 


hive> set hive.exec.dynamic.partitior= true; 

hive> set hive.exec.dynamic.partition.mode= nonstrict; 

Hive 默认 是 不 支持 动态 分 区 的 ,因此 hive. exec. dynamic. partition 默认 值 为 false, 需 
要 启动 动态 分 区 功能 ,可 以 将 该 参数 设置 为 true; 其 中 hive. exec. dynamic. partition. mode 
的 默认 值 是 strict, 表 示 必 须 指 定 至 少 一 个 分 区 为 静态 分 区 ,将 此 参数 修改 为 nonstrict, 表 示 
允许 所 有 的 分 区 字段 都 可 以 使 用 动态 分 区 。 

在 Hive 中 insert 语句 是 用 于 动态 插入 数据 的 , 它 主要 是 结合 select 查询 语句 使 用 , 且 
非常 适用 于 动态 分 区 插 和 人 数据 ,语法 格式 如 下 所 示 : 


hive> insert overwrite table table name 
partition (partool1[=vall], partcol2EEval2] …) 
Select statement FROM from statement 


现 有 原始 表 的 结构 化 数据 文件 dynamic_partition _table. txt, 内 容 数据 如 文件 7-3 
所 示 。 
文件 7-3 dynamic_partition_table. txt 
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现在 通过 一 个 案例 演示 动态 分 区 的 数据 插入 操作 。 将 dynamic_partition_table 中 的 数 
据 按照 时 间 (day) , 插 人 到 目标 表 d_p_t 的 相应 分 区 中 。 
首先 ,创建 原始 表 。 语 法 格式 如 下 所 示 : 


其 次 ,加 载 数据 文件 至 原始 表 , 语 法 格式 如 下 所 示 : 


再 次 ,创建 目标 表 , 语 法 格式 如 下 所 示 : 


接着 ,动态 插入 ,语法 格式 如 下 所 示 : 


最 后 ,查看 目标 表 中 的 分 区 数据 ,语法 格式 如 下 所 示 : 


按照 上 述 步骤 ,执行 相应 的 语句 后 ,最 终 的 效果 如 图 7-26 所 示 。 
小 提示 : 动态 分 区 不 允许 主 分 区 采用 动态 列 而 副 分 区 采用 静态 列 , 这 样 导致 所 有 的 主 
分 区 都 创建 副 分 区 静态 列 所 定义 的 分 区 。 


7.6.5 Hive 桶 表 操 作 


为 了 将 表 进 行 更 细 粒 度 的 范围 划分 ,可 以 创建 桶 表 。 桶 表 , 是 根据 某 个 属性 字段 把 数据 
分 成 几 个 桶 (这 里 设置 为 4, 默 认 值 是 一 1, 可 自 定义 ), 也 就 是 在 文件 的 层面 上 把 数据 分 开 。 
下 面 通过 一 个 案例 进行 桶 表 相 关 操作 的 演示 。 

首先 , 先 开 启 分 桶 功能 ,命令 如 下 所 示 。 
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昌国 Sessions 本 
i 192.168.121.134|||| month=2018-06/day=2018-06-14 
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168.121.136|||3 


图 7-26 目标 表 的 分 区 数据 


其 次 ,创建 桶 表 , 语 法 格式 如 下 所 示 : 


执行 上 述 语句 后 , 桶 表 stu_buck 创建 完成 ,并 且 以 学 生 编 号 (Sno) 分 为 4 个 桶 ,以 “为 
分 隔 符 的 桶 表 。 

再 次 ,在 HDFS 的 /stu/ 目 录 下 已 有 结构 化 数据 文件 student. txt, 需 要 将 student. txt 
文件 复制 到 /hivedata 目录 下 。 然 后 ,加 载 数据 到 桶 表 中 ,由 于 分 桶 表 加 载 数据 时 ,不 能 使 用 
Load Data 方式 导入 数据 (原因 在 于 该 Load Data 本 质 上 是 对 数据 文件 进行 复制 或 移动 到 
Hive 表 所 对 应 的 地 址 中 ) ,因此 在 分 桶 表 导 入 数据 时 需要 创建 临时 的 student 表 , 该 表 与 stu 
_buck 表 的 字段 必须 一 致 ,语法 格式 如 下 所 示 : 


接着 ,加 载 数据 至 student 表 , 语 法 格式 如 下 所 示 : 


最 后 ,将 数据 导入 stu_buck 表 , 语 法 格式 如 下 所 示 : 
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按照 步骤 ,执行 上 述 语句 ,然后 查看 桶 表 stu_buck 中 的 数据 ,效果 如 图 7-27 所 示 。 
ET | 


i 
4 Enter host <Alt+R> 必 作 已 


Session Manager Rt 192168.121135 x | 贸 192168.121136 


喇 rows selected (0.307 seconds) 
: jdbc:hive2://hadoop01:10000> 国 


ssh2; AES-256-CTR 29, 33 29 Rows, 90 Cols VT100 


图 7-27 ”stu_buck 的 数据 


从 图 7-27 可 以 看 出 ,数据 已 经 按照 学 生 编号 (Sno) 分 为 4 桶 。 可 以 通过 HDFS 的 Web 
UI 页 面 查看 ,效果 如 图 7-28 所 示 。 


€ > CC g@ 不 安全 | hadoop04:50070/explorer.html#/user/hive/warehouse/itc.. Q& 衣 © ©: 
/user/hive/warehouse/itcast.db/stu_buck 


Gol | 四 
Permission 。 owner Group Size LastModified Replication BlockSize 。 Name 
-rrwrx root supergroup 115B 2018/9/30 上 午 202:56 3 128 MB 000000.0 
wx-x root supergroup 144B 2018/9/30 上 午 202:54 3 128 MB 000001.0 
TWXT-XT-X root supergroup 144B 2018/9/30 上 午 2:02:55 3 128 MB 000002.0 
-Wr root supergroup 124B 2018/9/30 上 午 202:55 3 128 MB 000003.0 | 
Hadoop, 2017. 


图 7-28 分 桶 文件 结构 


在 图 7-28 中 ,数据 文件 已 经 被 分 为 4 个 文件 ,针对 每 桶 的 数据 可 以 使 用 Hadoop 命令 
去 查看 数据 内 容 , 具 体 命令 如 下 所 示 : 


$ hadbop £5 - cat /user/hive/warehouseyitcast.db/sbu buck/000000 0 


执行 上 述 命令 ,效果 如 图 7-29 所 示 。 
在 图 7-29 中 ,学 生 编 号 以 分 桶 原理 (分 桶 字段 取 Hash 值 与 桶 个 数 取 模 ) ,将 数据 归并 
到 一 个 文件 中 。 


总 体 来 说 ,分 桶 表 是 把 表 所 映射 的 结构 化 数据 分 得 更 细致 , 且 分 桶 规则 与 MapReduce 
分 区 规则 一 致 , Hive 采 用 对 目标 列 值 进行 哈 希 运算 ,得 到 哈 希 值 再 与 桶 个 数 取 模 的 方式 决 
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力 192168.121.134 (1) - SecureCRT [= 加 
有 
Enterhost <Alt+tR> 汪 训 的 号 台子 尖 9 加 


192.168.121.134 py x EE 168.121.135 | @ 192.168.121.136 dp 
Veoor naoopr sehadoop Ts -eat 7user /FiVe/warehouse/ Tteast. b/stu-buek7000000-0 ~ 


168.121.134 95020; 赵 钱 ; 另 ,21，IS 
省 1215832195 [root@hadoop0i ~i# 四 
局 lgz2168121136 ~ 


ssh2: AES-256-CTR 7, 20 “9 Rows 83 Cols 。 VT100 Cap NUM 


图 7-29 000000 文件 中 的 数据 


定数 据 的 归并 ,从 而 看 出 Hive 与 MapReduce 存在 紧密 联系 。 使 用 分 桶 可 以 提高 查询 效率 ， 
如 执行 Join 操作 时 ,两 个 表 有 相同 的 列 字段 ,如 果 对 这 两 张 表 都 采取 了 分 桶 操作 ,那么 就 可 
以 减少 Join 操作 时 的 数据 量 ,从 而 提高 查询 效率 。 它 还 能 够 在 处 理 大 规模 数据 集 时 ,选择 
小 部 分 数据 集 进行 抽样 运算 ,从 而 减少 资源 浪费 。 


7.7 Hive 数据 操作 


Hive 数据 操作 是 负责 对 数据 库 对 象 运行 数据 访问 工作 的 指令 集 , 通 俗 地 讲 它 的 功能 就 
是 操作 数据 ,其 中 包括 向 数据 表 加 载 文 件 、 查 询 结果 等 。 

在 所 有 数据 库 系统 中 ,查询 语句 是 使 用 最 频繁 的 ,也 是 最 复杂 的 ,Hive 中 的 Select 语句 
与 MySQL 语法 基本 一 致 , 且 支持 where、distinct、group by、order by、having,limit 以 及 子 
查询 等 ,下 面 是 一 个 标准 的 Select 语句 语法 格式 。 


SELECT [ALL | DISTINCT] select. expr, select expr, … 

FEOM table reference 

JUDIN table other CN expr 

[WEERE where conditicn] 

[GROUP BY col_ list [HAVINS conditicn]] 

[CIDSTER BY col_ list | [DTSTRIEUTE BY col list] [SRT BY| CRIER BY ool list]] 
[IIMIT nmber] 


接 下 来 针对 上 述 语 法 格式 中 的 关键 字 分 别 讲解 。 

。 table_reference 可 以 是 一 张 表 ,一 个 视图 或 者 是 一 个 子 查询 语句 。 

。 where 关键 字 作 为 可 选 参数 ,用 于 指定 查询 条 件 。 

distinct 关键 字 用 于 剔除 查询 结果 中 重复 的 数据 ,如 果 没 有 定义 则 全 部 输出 ,默认 为 all。 
group by 用 于 将 查询 结果 按照 指定 字段 进行 分 组 。 

having 作为 可 选 参数 ,与 group by 关键 字 连 用 , 它 是 将 分 组 后 的 结果 进行 过 滤 。 
distribute by 是 根据 指定 字段 分 发 到 不 同 的 Reducer 进行 处 理 , 且 分 发 算法 采用 哈 
希 散 列 ,类 似 MapReduce 中 的 partition 分 区 ,通常 结合 sort by 使 用 。 

sort by 是 在 数据 进入 Reducer 前 完成 排序 ,因此 不 是 全 局 排序 ,如 果 设置 mapred. 
reduce. tasks 二 1 , 则 sort by 只 能 保证 每 个 Reducer 的 输出 有 序 ,不 保证 全 局 有 序 。 
cluster by 是 一 个 分 桶 查询 语句 ,根据 指定 的 字段 进行 分 桶 ,分 桶 数 取决 于 设置 
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reduces 个 数 ,并 且 分 桶 后 ,每 桶 数据 都 会 进行 排序 ;通俗 地 讲 , 如果 distribute 和 
sort 的 字段 是 同一 个 时 ,此 时 可 以 理解 为 distribute by 十 sort by 一 cluster by。 
。 order by 用 于 将 查询 结果 按照 指定 字段 进行 全 局 排序 ,因此 输出 文件 只 有 一 个 , 且 
只 存在 一 个 Reducer, 那 么 当 数据 量 很 大 时 ,就 需要 较 长 的 计算 时 间 。 
在 Hive 中 ,HQL 是 不 区 分 大 小 写 的 ,但 是 关键 字 不 能 被 缩写 ,也 不 能 被 分 行 ,下 面 演 
示 相 关 查 询 案例 ,首先 准备 数据 dept. txt 和 emp. txt, 如 文件 7-4 和 文件 7-5 所 示 。 
文件 7-4 emp. txt 


文件 7-5 dept. txt 


并 根据 两 个 结构 化 数据 文件 创建 对 应 表 结 构 ,代码 如 下 所 示 : 


创建 表 完 成 后 ,将 数据 文件 移动 到 对 应 的 表 所 在 HDFS 路 径 下 ,完成 数据 映射 。 
例 1 基本 查询 


Hadoop 大 数据 技术 原理 与 应 用 


例 2 Where 条 件 查 询 


例 3 Like 和 Rlike 
RLike 子 句 是 Hive 中 这 个 功能 的 一 个 扩展 ,可 以 通过 Java 的 正则 表达 式 来 指定 匹配 


例 4 Group by 语句 
Group by 语句 通常 会 和 聚合 函数 一 起 使 用 ,按照 一 个 或 者 多 个 列 的 结果 进行 分 组 , 然 
后 对 每 个 组 执行 聚合 操作 。 


例 5 Having 语句 
Having 和 Where 语句 虽然 都 是 根据 条 件 进行 筛选 过 滤 , 但 是 它们 之 间 有 许多 不 同 
之 处 。 
。 Where 针对 表 中 的 列 进行 条 件 过 滤 ,查询 数据 ,Having 针对 查询 结果 中 的 列 进行 条 
件 过 滤 ,筛选 数据 ; 
。 Where 后 面 不 能 写 分 组 函数 ,而 Having 后 面 可 以 使 用 分 组 函数 ; 
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。 Having 只 用 于 Group by 分 组 统计 语句 。 


例 6 Order by 语句 
Order by 默认 为 升序 (ASC) ,降序 为 (DESC) 。 


例 7 Sort by 语句 


例 8 Distribute by 

Distribute by 通常 与 Sort by 结合 使 用 ,但 是 要 注意 Distribute by 语句 要 写 在 Sort by 
语句 之 前 ,对 于 Distribute by 进行 测试 ,一 定 要 分 配 多 个 Reduce 进行 处 理 ,和 否则 无 法 看 到 
Distribute by 的 效果 。 


例 9 Cluster by 


Cluster by 除了 具有 Distribute by 的 功能 外 还 兼 具 Sort by 的 功能 .但 是 排序 只 能 是 倒 
序 排序 ,不 能 指定 排序 规则 为 ASC 或 者 DESC。 


所 9 。 Hadoop 大 数据 技术 原理 与 应 用 


例 10 Join 操作 
在 当前 版 本 中 ,Hive 只 支持 等 值 连接 ,因为 非 等 值 连接 难以 转化 为 MapReduce 任务 。 


中 根据 员工 表 和 部 门 表 中 的 部 门 编号 相等 ,查询 员工 编号 .员工 名 称 和 部 门 编号 7 
hive> select e.empno， e.enane, d.deptnp，d.dname 

from emp e join dept d an e.deptno= d.deptnoy 

四 ) 左 外 连接 : Doin 操 作 符 左 边 表 中 符合 条 件 的 所 有 记录 将 会 被 返回 。 

hive> select e.arpno, e.enane, d.deptnp 

fram emp e left join dept d an e.deptno= d.deptno; 

全 右 外 连接 : zoin 操 作 符 右 边 表 中 符合 条 件 的 所 有 记录 将 会 被 返回 。 

hive> select e.ampno, e.enane, d.deptnp 

from ep e right join dept d on e.deptno= d.deptno; 


满 外 连接 : 返回 所 有 表 中 符合 条 件 的 所 有 记录 ,如 果 任 一 表 的 指定 字段 没有 符合 条 件 
的 值 的 话 ,那么 就 使 用 NULL 值 蔡 代 。 


hive> select e.erpnp e.enane, d.deptnp 
from emp e full join dept d an e.deptno= d.deptno; 


在 使 用 Join 语句 时 ,如 果 想 限制 输出 结果 ,可 以 在 Join 语句 后 面 添 加 Where 语句 , 进 
行 过 滤 。 


hive> select e.erpno，e.ename，d.deptnp 
from emp e full join dept d an e.Geptno= d.deptno where d.deptno= 20; 


7.8 ”本章 小 结 


本 章 讲解 了 Hive 的 相关 知识 ,首先 介绍 了 数据 仓库 概念 ,Hive 作为 数据 仓库 与 传统 数 
据 虽 然 都 是 存储 数据 的 工具 ,但 是 它们 的 使 用 有 很 大 区 别 。 通 过 介绍 Hive 的 基本 概念 , 读 
者 需要 了 解 Hive 以 及 Hive 架构 和 数据 模型 ;通过 介绍 Hive 的 安装 和 管理 ,让 读者 熟悉 
Hive 的 安装 步骤 和 管理 ;通过 介绍 Hive 的 数据 操作 ,让 读者 掌握 HiveQL 的 相关 操作 。 作 
为 初学 者 ,学习 Hive 就 必须 要 实际 动手 操作 Hive, 通 过 对 案例 练习 是 掌握 Hive 的 关键 。 


7.9 课 后 习题 


一 、 填空 题 

1. 数据 仓库 是 面向 和 时 变 的 数据 集合 ,用 于 支持 管理 
决策 。 

2. Hive 默认 元 数据 存储 在 数据 库 中 。 

3. Hive 建 表 时 设置 分 割 字 符 命令 。 

4. Hive 查询 语句 select ceil(2. 34) 输 出 内 容 是 。 

5. Hive 创建 桶 表 关 键 字 : 且 Hive 默认 分 桶 数量 是 
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二 、 判 断 题 


1. Hive 使 用 length() 函数 可 以 求 出 输出 的 数量 。 ) 
2. 创建 外 部 表 的 同时 要 加 载 数 据 文件 ,数据 文件 会 移动 到 数据 仓库 指定 的 目录 下 。 

CC 3 
3. Hive 是 一 款 独 立 的 数据 仓库 工具 ,因此 在 启动 前 无 须 启 动 任何 服务 。 ( ) 
4. Hive 默认 不 支持 动态 分 区 功能 ,需要 手动 设置 动态 分 区 参数 开启 功能 。 ¢€  》 
5. Hive 分 区 字段 不 能 与 已 存在 字段 重复 , 且 分 区 字段 是 一 个 虚拟 的 字段 , 它 不 存放 任 


何 数据 ,该 数据 来 源 于 装载 分 区 表 时 所 指定 的 数据 文 。 vg D 
三 、 选择 题 
1.Hive 是 建立 在 ( ) 之 上 的 一 个 数据 仓库 。 
A. HDFS B. MapReduce C. Hadoop D. HBase 
2. Hive 查询 语言 和 SQL 的 一 个 不 同 之 处 在 于 ( ) 操 作 。 
A. Group by B. Join C. Partition D. Union 
3. Hive 最 重视 的 性 能 是 可 测量 性 、 延 展 性 、( ) 和 对 于 输入 格式 的 宽松 匹配 性 。 
A. 较 低 恢复 性 B. 容错 性 
C. 快速 查询 D. 可 处 理 大 量 数据 
4. 以 下 选项 中 , 哪 种 类 型 间 的 转换 是 被 Hive 查询 语言 所 支持 的 ? 〈 ] 
A. Double 一 Number B. BigInt—Double 
C. Int—BiglInt D. String—Double 
5. 按 粒 度 大 小 的 顺序 ,Hive 数据 被 分 为 数据 库 、 数 据 表 、( ) 和 桶 。 
A. 元 祖 B. 栏 C. 分 区 D. 行 
四 、 简 答题 


1. 简 述 Hive 的 特点 。 
2. 简 述 Hive 中 内 部 表 与 外 部 表 区 别 。 


五 、 编 程 题 
创建 字段 为 id name 的 用 户 表 , 并 且 以 性 别 gender 为 分 区 字段 的 分 区 表 。 


第 8 章 
Flume 日 志 采 集 系 统 


学 习 目标 

。 了 解 Flume 的 作用 。 

。 熟悉 Flume 的 运行 机 制 。 

。 掌握 Flume 的 安装 部 署 。 

。 熟悉 Flume 的 可 靠 性 保证 。 

。 熟悉 案例 一 一 日 志 采 集 的 编写 。 


在 大 数据 学 习 、 开 发 过 程 中 ,会 产生 各 种 各 样 的 数据 源 信息 ,如 网 站 流量 日 志 分 析 系统 
产生 的 日 志 数 据 ,这 些 数 据 的 收集 、 监 听 、 使 用 非常 重要 。 针 对 类 似 业务 需求 ,通常 会 使 用 
Apache 旗下 的 Flume 日 志 采 集 系统 完成 相关 数据 采集 工作 。Apache Flume 是 一 个 高 可 靠 、 
高 可 用 的 分 布 式 系统 ,用 于 高 效 地 从 许多 不 同 的 数据 源 收 集聚 合 大 批量 的 日 志 数据 ,进行 集 
中 式 存 储 。 本 章 就 对 Flume 系统 框架 进行 讲解 ,让 读者 深入 掌握 Flume 的 使 用 和 开发 。 


8.1 Flume 概述 


8.1.1 Flume 简介 


Flume 原 是 Cloudera 公司 提供 的 一 个 高 可 用 的 、 高 可 靠 的 分 布 式 海量 日 志 采 集 、 聚 合 
和 传输 系统 ,而 后 纳入 到 了 Apache 旗下 ,作为 一 个 顶级 开源 项 目 。Apache Flume 不 仅 只 限 
日 志 数 据 的 采集 ,由 于 Flume 采集 的 数据 源 是 可 定制 的 ,因此 Flume 还 可 用 于 传输 大 量 
事件 数据 ,包括 但 不 限于 网 络 流量 数据 ,社交 媒体 生成 的 数据 ,电子 邮件 消息 以 及 几乎 任何 
可 能 的 数据 源 。 
当前 Flume 分 为 两 个 版 本 : Flume 0. 9x 版 本 ,统称 Flume-og (original generation) 和 
Flume 1. x 版 本 ,统称 Flume-ng(next generation) 。 由 于 早期 的 Flume-og 存在 设计 不 合 
理 , 代 码 腕 肿 .不易 扩展 等 问题 ,因此 在 Flume 纳入 到 Apache 旗下 后 ,开发 人 员 对 Cloudera 
Flume 的 代码 进行 了 重 构 ,同时 对 Flume 功能 进行 了 补充 和 加 强 , 并 重 命名 为 Apache Flume， 
于 是 就 出 现 了 Flume-ng 与 Flume-og 两 种 截然 不 同 的 版 本 。 而 在 实际 开发 中 ,多 数 使 用 目前 
比较 流行 的 Flume-ng 版 本 进行 Flume 开发 ,本 书 也 会 重点 讲解 Flume-ng 版 本 的 使 用 。 


8.1.2 Flume 运行 机 制 
Flume 的 核心 是 把 数据 从 数据 源 ( 如 Web Server) 通 过 数据 采集 器 (Source) 收 集 过 来 ， 
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再 将 收集 的 数据 通过 缓冲 通道 (Channel) 汇 集 到 指定 的 接收 器 (Sink)。 这 里 可 以 参考 官方 
的 架构 图 ,具体 展示 Flume 的 运行 机 制 ,如 图 8-1 所 示 。 


图 8-1 Flume 基本 架构 


从 图 8-1 可 以 看 出 ,Flume 基本 架构 中 有 一 个 Agent( 代 理 ), 它 是 Flume 的 核心 角色 ， 
Flume Agent 是 一 个 JVM 进程 , 它 承 载 着 数据 从 外 部 源流 向 下 一 个 目标 的 3 个 核心 组 件 : 
Source、Channel 和 Sink。 结 合 图 8-1, 对 这 3 个 重要 组 件 进行 说 明 , 具 体 如 下 。 
。 Source( 数 据 采 集 器 ): 用 于 源 数据 的 采集 (如 图 8-1, 从 一 个 Web 服务 器 采集 源 数 
据 ) ,然后 将 采集 到 的 数据 写 人 到 Channel 中 并 流向 Sink; 

。 Channel( 缓 冲 通道 ) : 底层 是 一 个 缓冲 队列 ,对 Source 中 的 数据 进行 缓存 ,将 数据 高 
效 、 准 确 地 写 和 人 Sink, 待 数据 全 部 到 达 Sink 后 .Flume 就 会 删除 该 缓存 通道 中 的 
数据 ; 

。 Sink( 接 收回) : 接收 并 汇集 流向 Sink 的 所 有 数据 ,根据 需求 ,可 以 直接 进行 集中 式 

存储 (如 图 8-1, 采 用 HDFS 进行 存储 ) ,也 可 以 继续 作为 数据 源 传 人 其 他 远程 服务 
器 或 者 Source 中 。 

在 整个 数据 传输 的 过 程 中 , Flume 将 流动 的 数据 封装 到 一 个 event (事件 ) 中 , 它 是 
Flume 内 部 数据 传输 的 基本 单元 。 一 个 完整 的 event 包含 headers 和 body, 其 中 headers 包 
含 了 一 些 标识 信息 ,而 body 中 就 是 Flume 收集 到 的 数据 信息 。 


8.1.3 ” Flume 日志 采集 系统 结构 图 


在 8.1.2 节 中 ,已 经 介绍 了 Flume 的 核心 角色 是 Agent, 通 过 Agent 可 以 从 其 他 服务 中 
采集 数据 ,并 通过 内 部 event 流 的 形式 传输 到 Sink, 并 根据 需求 最 终 向 下 一 个 Agent 传输 或 
者 进行 集中 式 存储 。 

在 实际 开发 中 , Flume 需要 采集 数据 的 类 型 多 种 多 样 , 同 时 还 会 进行 不 同 的 中 间 操 作 ， 
所 以 根据 具体 需求 ,可 以 将 Flume 日 志 采 集 系统 分 为 简单 结构 和 复杂 结构 


1. 简单 结构 


当 需 要 采集 数据 的 生产 源 比 较 单一 、 简 单 的 时 候 ,可 以 直接 使 用 一 个 Agent 来 进行 数 
据 采集 并 最 终 存 储 , 结 构 如 Flume 基本 架构 , 见 图 8-1。 


2. 复杂 结构 


有 时 候 需要 采集 数据 的 数据 源 分 布 在 不 同 的 服务 器 上 ,使 用 一 个 Agent 进行 数据 采集 
不 再 适用 ,这 时 就 可 以 根据 业务 需求 部 署 多 个 Agent 进行 数据 采集 并 最 终 存 储 , 结 构 如 
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图 8-2 所 示 。 
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图 8-2 Flume 复杂 结构 一 一 多 Agent 


从 图 8-2 可 以 看 出 ,对 每 一 个 需要 收集 数据 的 Web 服务 端 都 搭建 了 一 个 Agent 进行 数 
据 采 集 , 接 着 再 将 这 多 个 Agent 中 的 数据 作为 下 一 个 Agent 的 Source 进行 采集 并 最 终 集 中 
存储 到 HDFS 中 。 

除 此 之 外 ,在 开发 中 还 有 可 能 遇 到 从 同一 个 服务 端 采集 数据 ,然后 通过 多 路 复 用 流 分 别 
传输 并 存储 到 不 同 目的 地 的 情况 ,结构 如 图 8-3 所 示 。 


Agent bar 


图 8-3 Flume 复杂 架构 一 一 多 路 复 用 流 
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从 图 8-3 可 以 看 出 ,根据 具体 需求 ,将 一 个 Agent 采集 的 数据 通过 不 同 的 Channel 分 别 
流向 了 不 同 的 Sink, 然 后 再 进行 下 一 阶段 的 传输 或 存储 (如 图 8-3 所 示 ,将 多 个 Sink 数据 分 
别 进行 了 HDFS 集中 式 存储 、 作 为 JMS 消息 服务 .作为 另 一 个 Agent 的 Source) 。 


8.2 ”Flume 基本 使 用 


通过 前 面 的 学 习 , 已 经 对 Flume 的 基本 结构 和 内 部 运行 机 制 有 了 初步 的 了 解 , 接 下 来 ， 
本 节 对 Flume 的 基本 使 用 进行 详细 讲解 。 


8.2.1 Flume 系统 要 求 


作为 Apache 旗下 的 一 个 顶级 项 目 , 想 要 使 用 Flume 进行 开发 ,必须 满足 一 定 的 系统 要 
求 ,这 里 以 官方 说 明 为 准 , 具 体 要 求 如 下 。 

。 安装 Java 1. 8 或 更 高 版 本 Java 运行 环境 (针对 本 次 使 用 的 Flume 1. 8 版 本 ); 

。 为 Source( 数 据 采 集 器 )、.Channel( 缓 冲 通 道 ) 和 Sink( 接 收 器 ) 的 配置 提供 足够 的 内 

存 空间 ; 

。 为 Channel( 缓 冲 通道 ) 和 Sink( 接 收 器 ) 的 配置 提供 足够 的 磁盘 空间 ; 

。 保证 Agent( 代 理 ) 对 要 操作 的 目录 有 读 写 权限 。 

上 述 系 统 要 求 中 ,Java 运行 环境 的 版 本 与 将 要 安装 使 用 的 Flume 版 本 是 对 应 的 ,如 果 
使 用 Flume 1. 6 版 本 , 则 要 求 使 用 Java 1.6 及 以 上 运行 环境 ,由 于 本 章 后 续 将 以 编写 时 的 最 
新 版 本 Flume 1. 8.0 为 准 , 所 以 要 求 安装 Java 1. 8 及 以 上 运行 环境 。 


8.2.2 Flume 安装 配置 


在 满足 8. 2. 1 所 示 的 Flume 系统 要 求 后 ,就 可 以 正式 进行 Flume 的 安装 配置 了 ,由 于 
编写 教材 时 ,Flume 的 最 新 稳定 版 本 为 Flume 1. 8.0, 所 以 本 教材 就 以 Flume 1. 8. 0 为 例 进 
行 安装 使 用 。 接 下 来 ,分 两 部 分 分 别 介绍 Flume 的 安装 与 配置 。 


1. Flume 安装 


这 里 选择 前 面 学 习 时 创建 的 hadoop01 虚拟 机 来 进行 Flume 1. 8.0 的 安装 。 首 先 通过 
官网 下 载 Linux 系统 下 的 Flume 1. 8.0 的 安装 包 apache-flume-1. 8. 0-bin. tar. gz( 下 载 地 址 
为 http://flume. apache. org/download. html) ,然后 上 传 到 hadoop01 虚拟 机 的 /export/ 
software 目录 下 ,效果 如 图 8-4 所 示 。 

接着 ,在 Flume 1. 8.0 的 安装 包 所 在 目录 下 进行 解压 ,然后 将 解压 后 的 Flume 文件 移 
动 到 /export/servers 目录 下 并 进行 重 命 名 ,具体 指令 如 下 。 


$ tar zevf apache— 日 me 1.8.0-bin.tar.gz 
$ my apache— flime— 1.8.0- bin /export/servers/flime 


执行 完 上 述 指令 后 ,就 完成 了 Flume 1. 8.0 的 安装 ,进入 Flume 安装 后 的 文件 路 径 进 
行 查看 ,效果 如 图 8-5 所 示 。 
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图 8-4 Flume 上 传 后 的 效果 
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图 8-5 Flume 安装 效果 图 


2. Flume 配置 


(1) flume-env. sh 环境 变量 配置 。 

Flume 安装 完成 后 ,还 需要 进入 Flume 解压 目录 中 conf 目录 下 的 flume-env. sh 系统 环 
境 配置 文件 ,在 里 面 配置 Flume 所 依赖 的 JAVA_HOME。 在 conf 目录 中 默认 没有 该 文件 ， 
需要 先 通过 “cp flume-env. sh. template flume-env. sh 指令 将 文件 复制 并 重 命名 为 “flume- 
env. sh”, 接 着 打开 flume-env. sh 文件 ,并 找到 JAVA_HOME 变量 配置 位 置 (默认 被 注释 
了 ) ,进行 如 下 修改 (注意 JDK 路 径 ) 。 


export JAVA HME= /export/servers/jdk 


完成 上 述 配置 后 ,效果 如 图 8-6 所 示 。 

配置 完 flume-env. sh 文件 中 的 JAVA_HOME 变量 后 ,直接 保存 退出 即 可 。 

(2) Flume 系统 环境 变量 配置 。 

完成 flume-env. sh 环境 变量 配置 后 就 可 以 正常 使 用 Flume 了 ,不 过 为 了 方便 系统 所 有 
位 置 都 能 执行 Flume, 接 下 来 可 以 进行 Flume 系统 环境 变量 的 配置 。 
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图 8-6 ”flume-env. sh 文件 


使 用 “vi /etc/profile” 指 令 进 入 到 profile 文件 ,在 文件 底部 进一步 添加 如 下 内 容 类 配置 
Flume 系统 环境 变量 。 


export ELUME_ HME= /export/servers/flime 
export. PATH= $ EBPTH:S FIDME HME/bin: 


配置 完成 后 直接 保存 退出 ,接着 使 用 “source /etc/profile” 指 令 刷 新 配置 文件 即 可 。 


8.2.3 ” Flume 入 门 使 用 


完成 Flume 的 安装 和 配置 后 ,就 可 以 使 用 Flume 了 , 接 下 来 通过 一 个 简单 的 单 Agent 
结构 案例 来 演示 Flume 的 入 门 使 用 ,具体 使 用 步骤 如 下 。 


1. 配置 Flume 采集 方案 


因为 Flume 要 采集 数据 的 类 型 和 源头 多 种 多 样 ,并 且 根 据 开发 需求 还 要 进行 不 同类 型 
的 数据 传输 和 汇总 。 为 此 ,根据 实际 业务 需求 .Flume 专门 设计 了 匹配 不 同 数 据 类 型 和 传输 
要 求 的 Flume Source、Flume Channel 和 Flume Sink。 

为 了 正确 地 使 用 Flume 对 数据 进行 采集 .就 必须 编写 适合 开发 者 需求 的 Flume 采集 方 
案 , 接 下 来 就 编写 一 个 采集 netcat( 用 于 TCP/UDP 连接 和 监听 的 Linux 工具 ,主要 用 于 网 
络 传输 及 调试 领域 ) 源 数据 的 采集 方案 ,如 文件 8-1 所 示 。 

文件 8-1 netcat-logger. conf 


# 示例 配置 方案 : 单 节 点 mume 配 置 

# 定义 zgent 中 各 个 组 件 名 称 ， 

# 其 中 该 gent 名 为 alvsources 名 为 rlsinks 名 为 Kl,dhamnels 名 为 cl 
al.sources=r1 

al.sinks—=k1 

al.channels=cl 

# 描述 并 配置 sources 组 件 数据 源 类 型 .采集 数据 源 的 应 用 地 址 ) 
,sources.r1 ,type= netcat 

a1.sources.r1 .binde localhost 


虽 mwamunmwn hh 


i 


178 


Hadoop 大 数据 技术 原理 与 应 用 


al,sources.IL.porb= 44444 

# 描述 并 配置 sinks 组 件 保 集 后 的 数据 流出 的 类 型 ) 
al.sinks.Jd ,type= logger 

# 描述 并 配置 cuamnels 瞬 存 类 型 .内存 缓存 大 小 和 事务 缓存 大 小 ) 
14 al.dhannels.cl.type=memory 

15 al.hamnels.cl.capacity=1000 

16 al.dhamnels.cl.transactioncapacity=100 

17 + 将 source 和 sink 通 过 同一 个 chamel 连接 绑 定 

18 al.sources.rl.charnels=cl 

19 al.sinks.Kl,chamel=cl 


接 下 来 , 先 对 文件 8-1 编写 的 采集 方案 进行 说 明 , 具 体 如 下 所 示 。 

(1) 采集 方案 的 名 称 可 以 自 定义 ,但 为 了 方便 管理 和 使 用 ,通常 会 根据 数据 源 类 型 和 收 
集 的 结果 类 型 进行 命名 。 如 netcat-logger. conf 表示 采集 netcat 类 型 数据 源 并 最 终 作 为 
logger 日 志 信 息 收集 。 

(2) 采集 方案 文件 的 位 置 可 以 自 定义 存放 ,在 使 用 的 时 候 会 要 求 指定 配置 方案 的 具体 
位 置 ,为 了 方便 统一 管理 ,通常 会 将 采集 方案 统一 存放 。 如 本 案例 中 ,会 将 所 有 自 定义 的 采 
集 方案 文件 保存 在 /export/servers/flume/conf 目录 下 。 

(3) 采集 方案 中 的 sources ,channels sinks 是 在 具体 编写 时 根据 业务 需求 进行 配置 的 ， 
不 能 随意 定义 。Flume 支持 采集 的 数据 类 型 可 以 通过 查看 官网 进行 详细 了 解 ( 地 址 http:// 
flume. apache. org/FlumeUserGuide. html) ,同时 针对 不 同 的 sources type、channels type 和 
sinks type 需要 编写 不 同 的 配置 属性 。 

注意 : 配置 采集 方案 中 ,在 编写 Source、Sink 与 Channel 关联 绑 定 时 特别 容易 出 错 , 如 
文件 8-1 中 所 示 的 al. sources. rl. channels 一 cl 和 al. sinks. kl. channel 一 cl,sources 的 
channels 比 sinks 的 channel 多 了 一 个 s。 这 是 因为 ,在 一 个 Agent 中 ,同一 个 Source 可 以 
有 多 个 Channel, 所 以 配置 时 使 用 channels(channel 的 复数 形式 ); 而 同一 个 Sink 只 能 为 一 
个 Channel 服务 ,所 以 配置 时 必须 使 用 Channel。 


2. 使 用 指定 采集 方案 启动 Flume 


在 Flume 解压 包 的 bin 目录 下 有 一 个 flume-ng 文件 ,通过 该 文件 就 可 以 启动 Flume。 
因为 前 面 在 系统 中 配置 了 FLUME_HOME 系统 环境 变量 ,所 以 可 以 在 任意 目录 下 启动 
Flume, 具 体 指令 如 下 (假设 在 Flume 解压 包 路 径 下 启动 ) 。 


$ flime- ng agent--cConf conf/ - ~ onf- file conf/netcat- logger.conf \ 
-~nam al - DEime.rooct.logger= INFO, onsole 


执行 上 述 指令 后 ,就 会 使 用 前 面 编写 的 采集 方案 netcat-logger. conf 来 启动 Flume, 该 
Flume 系统 会 根据 采集 方案 的 配置 监听 当前 主机 localhost 下 44444 端口 发 送 的 netcat 类 
型 源 数 据 , 并 将 信息 收集 接收 到 类 型 为 logger 的 Sink 中 。 

接 下 来 ,对 上 述 指令 中 的 各 部 分 内 容 进行 说 明 ,具体 如 下 所 示 。 

(1) flume-ng agent: 表示 使 用 flume-ng 启动 一 个 agent; 

(2) 一 conf conf/ : 一 conf 选项 指定 了 Flume 自 带 的 配置 文件 路 径 , 可 用 -c 简写 格式 ; 
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(3) 一 conf-file conf/netcat-logger. conf: 一 conf-file 选项 指定 了 开发 者 编写 的 采集 方 
案 , 可 用 -{ 简写 格式 ,需要 注意 配置 文件 所 在 路 径 ,建议 读者 使 用 绝对 路 径 指定 采集 方案 , 否 
则 将 提示 文件 不 存在 的 错误 ; 

(4) 一 name al: 表示 启动 的 agent 名 称 为 al ,该 名 称 al 必须 与 采集 方案 中 agent 的 名 
称 保持 一 致 ; 

(5) -Dflume. root. logger 王 INFO,console: 表示 将 采集 处 理 后 的 信息 通过 logger 日 志 
的 信息 输出 到 控制 台 进 行 展示 。 

执行 上 述 指令 启动 Flume 系统 后 ,查看 效果 如 图 8-7 所 示 。 
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图 8-7 Flume 启动 效果 图 


从 图 8-7 可 以 看 出 ,Flume 正式 启动 成 功 ,并 且 光 标 处 于 闪烁 状态 ,在 持续 监听 来 自 
127.0.0.1: 44444 应 用 产生 的 netcat 类 型 数据 。 


3. Flume 采集 数据 测试 


为 了 验证 并 查看 Flume 采集 数据 的 效果 ,可 以 在 本 机 44444 端口 模拟 生成 netcat 数 
据 。 首 先 ,打开 或 者 克隆 一 个 终端 会 话 框 ,在 这 个 新 的 会 话 框 中 输入 以 下 指令 。 


$ telnet localhost 44444 


上 述 指令 的 作用 就 是 使 用 telnet 工具 连接 到 本 机 44444 端口 ,用 来 持续 发 送信 息 作为 
Flume 将 要 采集 的 源 数据 。 注 意 , 如 果 使 用 上 述 指令 后 出 现 *“-bash: telnet: command not 
found” 的 错误 提示 , 则 需要 先 在 当前 虚拟 机 上 使 用 “yum -y install telnet” 安 装 telnet 工具 。 

执行 “telnet localhost 44444” 指 令 后 ,效果 如 图 8-8 所 示 。 

从 图 8-8 可 以 看 出 ,telnet 工具 正式 启动 成 功 ,并 且 光 标 处 于 闪烁 状态 ,等 待 用 户 在 该 端 
口 输入 数据 信息 。 

在 图 8-8 所 示 的 telnet 工具 测试 界面 ,随意 输入 数据 信息 ,如 “hello flume” 并 按 下 回 车 
键 ,查看 效果 如 图 8-9 所 示 。 

与 此 同时 ,查看 之 前 启动 Flume 的 终端 会 话 框 ,效果 如 图 8-10 所 示 。 

从 图 8-10 可 以 看 出 ,Flume 已 经 准确 监听 并 采集 到 了 监听 应 用 发 送 的 telnet 数据 ,并 
根据 启动 时 的 指示 输出 到 了 控制 台 上 进行 展示 。 
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妆 代 人 注重 E) 二天 VW) 这 (0) 人 忧 纺 0 甩 二 (5) 工具 (和 htH 
鸥 网 | 电 号 马 | 辐 仇 


Escape character is I. 


shz AES-256-CTR 7 1 21 行 133 列 VTI00 大 数字 


图 8-8 telnet 工具 测试 界面 
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图 8-9 telnet 工具 测试 界面 
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图 8-10 ”Flume 采集 数据 效果 图 


小 提示 : 上 述 案例 中 ,Flume 会 将 telnet 工具 产生 的 每 一 行 信息 作为 一 个 event 进行 封 
装 ,并 进行 采集 和 处 理 。 如 果 telnet 测试 界面 输入 的 一 行 信息 超过 16 字 节 , 在 Flume 接收 
的 时 候 会 被 截取 ,这 是 因为 org. apache. flume. event 包 下 的 EventHelper 类 中 的 源 代码 对 
event 中 body 数据 长 度 进行 了 限制 ,默认 为 16 字 节 。 这 种 情况 下 ,就 需要 额外 修改 配置 文 
件 、 源 代码 或 者 采用 其 他 方式 来 进行 数据 长 度 的 配置 了 。 


8.3 Flume 采 集 方案 配置 说 明 


在 8.2.3 节 Flume 入 门 使 用 中 ,对 案例 中 编写 的 采集 方案 进行 了 说 明 , 在 Flume 日 志 
采集 系统 中 ,采集 方案 是 开发 者 需要 编写 的 核心 部 分 ,而 在 采集 方案 中 需要 根据 不 同 需 求 来 
分 别针 对 Source、Channel 和 Sink 进行 配置 。 所 以 , 接 下 来 就 针对 Flume 采集 方案 的 配置 


内 容 进行 详细 讲解 。 
B351 
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在 编写 Flume 采集 方案 时 ,首先 必须 明确 的 是 采集 的 数据 源 类 型 .出 处 ;接着 ,根据 这 
些 信 息 与 Flume 已 提供 支持 的 Flume Sources 进行 匹配 ,选择 对 应 的 数据 采集 器 类 型 ( 即 
sources. type) ;然后 ,再 根据 选择 的 数据 采集 器 类 型 ,配置 必要 和 非 必要 的 数据 采集 器 属性 。 
在 Flume 1. 8.0 中 ,Flume 提供 并 支持 的 Flume Sources 有 很 多 ,如 表 8-1 所 示 。 


表 8-1 Flume Sources 种 类 


Avro Source Thrift Source Exec Source 
JMS Source Spooling Directory Source Twitter 1% firehose Source 


Kafka Source 


NetCat TCP Source 


NetCat UDP Source 


Sequence Generator Source 


Syslog TCP Source 


Multiport Syslog TCP Source 


Syslog UDP Source 


HTTP Source 


Stress Source 


Avro Legacy Source 


Thrift Legacy Source 


Custom Source 


Scribe Source 


Taildir Source 


上 述 表 8-1 就 是 Flume 1. 8.0 官网 文档 展示 的 Flume 提供 支持 的 Flume Sources , 接 下 
来 ,就 对 其 中 一 些 常用 的 Flume Sources 进行 讲解 说 明 。 


1. Avro Source 


监听 Avro 端口 并 从 外 部 Avro 客户 端 流 中 接收 event 数据 , 当 与 男 一 个 Flume Agent 
上 的 Avro Sink 配对 时 , 它 可 以 创建 分 层 集 合 拓扑 ,利用 Avro Source 可 以 实现 多 级 流动 、 


扇 出 流 、 遍 入 流 等 效果 。 


Avro Source 提供 的 常用 配置 属性 ,如 表 8-2 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-2 Avro Source 常用 属性 


属性 名 称 默 值 说 有明 
channels 
type 组 件 类 型 名 必须 是 avro 
bind 要 监听 的 主机 名 或 IP 地 址 
port 要 监听 的 服务 端口 
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续 表 
属性 名 称 默 认 值 说 明 

threads 一 要 生成 的 工作 线程 的 最 大 数目 

将 此 设置 为 true 以 启用 SSL 加 密 , 则 还 必须 指定 keystore 和 
ssl false 

keystore-password 
keystore 一 SSL 所 必需 的 通 往 Java 秘 钥 存储 路 径 
keystore-password 一 SSL 所 必需 的 Java 密 钥 存储 的 密码 


使 用 Avro Source 采集 器 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.sources=I1 
dl.dhamels=cl 


al.scources.Tl.type= avro 


al.sources.rl.dhannels= cl 
局 .sources.rL.bincF 0.0.0.0 


.sources.rl.port=4141 


2. Spooling Directory Source 


Spooling Directory Source 允许 对 指定 磁盘 上 的 文件 目录 进行 监控 来 提取 数据 , 它 将 查 
看 文件 的 指定 目录 的 新 增 文件 ,并 将 文件 中 的 数据 读 取 出 来 。 
Spooling Directory Source 提供 的 常用 配置 属性 ,如 表 8-3 所 示 ( 加 粗 部 分 为 必须 属性 )。 


表 8-3” Spooling Directory Source 常用 属性 


属性 名 称 默 认 值 说 ”有明 
channels 一 
type 组 件 类 型 名 必须 是 spooldir 
spoolDir 一 从 中 读 取 文 件 的 目录 
fileSuffix .COMPLETED 附加 到 完全 摄取 的 文件 后 级 
deletePolicy never 何 时 删除 已 完成 的 文件 : never 或 immediate 
fileHeader false 是 否 添加 存储 绝对 路 径 文件 名 的 标 头 
includePattern 人 二 正则 表达 式 ,指定 要 包含 的 文件 
ignorePattern ^$ 正则 表达 式 ,指定 要 忽略 的 文件 


使 用 Spooling Directory Source 采集 器 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.dhamels—=dr-1 
Lsources= src-1 


al.sources.src- 1.type= spooldir 


al.sources.src- 1.chanmnels= cdr 1 
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al.sources.src- 1.spoolDir= /War/log/apache/flumeSpool 
al.souroes.src- 1.filefeader= true 


3. Taildir Source 


Taildir Source 用 于 观察 指定 的 文件 ,几乎 可 以 实时 监测 到 添加 到 每 个 文件 的 新 行 。 如 
果 文 件 正 在 写 人 新 行 , 则 此 采集 器 将 重 试 采集 它们 以 等 待 写 入 完成 。 
Taildir Source 提供 的 常用 配置 属性 ,如 表 8-4 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-4 Taildir Source 常用 属性 


属性 名 称 默 认 值 说 明 
channels 
type 组 件 类 型 名 必须 是 TAILDIR 
i = 以 空格 分 隔 的 文件 组 列表 。 每 个 文件 组 都 指定 了 要 监测 
的 一 系列 文件 
文件 组 的 绝对 路 径 。 正则 表达 式 ( 而 不 是 文件 系统 模式 ) 
filegroups. —filegroupName> 只 能 用 于 文件 名 
a 关闭 非 活 动 文件 的 时 间 (ms) 。 如 果 关 闭 的 文件 附加 了 新 
idleTimeout 120000 行 , 则 此 源 将 自动 重新 打开 它 
writePosJInterval 3000 写 入 位 置 文件 上 每 个 文件 的 最 后 位 置 的 间隔 时 间 (ms) 
b 一 次 读 取 和 发 送 到 通道 的 最 大 行 数 。 使 用 默认 值 通常 效 
atchSize 100 
果 较 好 
当 最 后 一 次 尝试 未 找到 任何 新 数据 时 ,每 次 重新 尝试 轮 
backoffSleepIncrement 1000 询 新 数据 之 间 的 最 大 时 间 延 迟 
fileHeader false 是 否 添加 存储 绝对 路 径 文件 名 的 标 头 


fileHeaderKey 


file 


将 绝对 路 径 文件 名 附加 到 event header 时 使 用 的 header 
关键 字 


使 用 Taildir Source 采集 器 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.sources=rl 
al.chamels=cl 
al.sources.rl.type=TRAIDIR 
al.sources.rl.dhannels=cl 


al.souroes.rl.positionFile= /var/l0og/flume/taildir position.jsam 


al.sources.rl.filegrops=f 人 人 2 


al.sources.rl.filegrops.fl= /var/log/testl/exanple.1og 
al.souroes.rl.headers.f] .headerFeyl= valuel 
al.souroes.rl.filegroups.f2 /war/log/test2/.# log.* 
al.souroes.rl .headers.£2.headerFeyl= value? 

al.sources.rl .headers.f2.headerFey value?2 2 


al.souroes.r1.fileHeader= true 
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4. HTTP Source 


HTTP Source 可 以 通过 HTTP POST 和 GET 请 求 方式 接收 event 数据 ,GET 通常 只 
能 用 于 测试 使 用 。HTTP 请 求 会 被 实现 了 HTTPSourceHandler 接口 的 handler( 处 理 器 ) 
可 插 拔 插件 转 成 Flume events, 这 个 handler 接收 HttpServletRequest, 返 回 Flume events 
列表 。 一 个 HTTP 请 求 处 理 的 所 有 事件 都 在 一 个 事务 中 提交 给 通道 ,从 而 允许 在 诸如 file 
channel 之 类 的 channel 上 提高 效率 。 如 果 handler 抛 出 异常 , source 会 返回 400; 如 果 
channel 满 了 或 者 source 不 能 再 向 channel 追加 event,source 会 返回 503。 

在 一 个 POST 请 求 发 送 的 所 有 的 events 都 被 认为 是 一 个 批 次 ,会 在 一 个 事务 中 插入 
channel。HTTP Source 提供 的 常用 配置 属性 ,如 表 8-5 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-5 HTTP Source 常用 属性 


属性 名 称 默 认 值 说 有明 

channels 一 

type 组 件 类 型 名 必须 是 http 

port 一 采集 源 要 绑 定 的 端口 

bind 0.0.0.0 要 监听 绑 定 的 主机 名 或 IP 地址 
handler org. apache. flume. source. http. JSONHandler “| handler 类 的 全 路 径 名 

handler. * 一 配置 handler 的 参数 


使 用 HTTP Source 采集 器 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


引 .sources=- IlL 

al.channelscl 

引 .scurces. 世 .type= http 

al.sources.rl.port= 5140 

al.scurces.rl.Ghannels- cl 

引 .scurces.rl.handler= org.exanple.rest.RestHandler 
al.sources.rl.handler.nickname= randcom props 


本 节 列 举 了 Flume 1. 8.0 版 本 支持 的 Flume Sources, 并 对 其 中 常用 的 Sources 进行 了 
说 明 , 读 者 还 可 以 参考 官网 http://flume. apache. org/FlumeUserGuide. html # flume- 
sources 学 习 其 他 Flume Sources 的 详细 说 明和 配置 。 


8.3.2 Flume Channels 


Channels 通道 是 event 在 Agent 上 和 暂 存 的 存储 库 .Source 向 Channel 中 添加 event， 
Sink 在 读 取 完 数据 后 再 删除 它 。 在 配置 Channels 时 ,需要 明确 的 是 将 要 传输 的 sources 数 
据 源 类 型 ;接着 ,根据 这 些 信息 并 结合 开发 中 的 实际 需求 ,选择 Flume 已 提供 支持 的 Flume 
Channels; 然 后 ,再 根据 选择 的 Channel 类 型 ,配置 必要 和 非 必 要 的 Channel 属性 。 
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在 Flume 1. 8.0 中 ,Flume 提供 并 支持 的 Flume Channels 有 很 多 ,如 表 8-6 所 示 。 


表 8-6 ”Flume Channels 种 类 


Memory Channel 


JDBC Channel Kafka Channel 


File Channel 


Spillable Memory Channel Pseudo Transaction Channel 


Custom Channel 


表 8-6 就 是 Flume 1. 8.0 官网 文档 展示 的 Flume 提供 支持 的 Flume Channels, 接 下 来 ， 
就 对 其 中 一 些 常用 的 Flume Channels 进行 讲解 说 明 。 


1. Memory Channel 


Memory Channel 会 将 event 存储 在 具有 可 配置 最 大 尺寸 的 内 存 队列 中 , 它 非常 适用 于 
需要 更 高 吞吐 量 的 流量 ,但 是 在 Agent 发 生 故 障 时 会 丢失 部 分 阶段 数据 。 
Memory Channel 提供 的 常用 配置 属性 ,如 表 8-7 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-7 Memory Channel 常用 属性 


属性 名 称 默 认 值 说 明 
type 一 组 件 类 型 名 必须 是 memory 
capacity 100 存储 在 Channel 中 的 最 大 event 数 
， i Channel 将 从 Source 接收 或 向 Sink 传递 的 每 一 个 事务 中 
transactionCapacity 的 最 大 event 数 
keep-alive 3 添加 或 删除 event 的 超时 时 间 (s) 
be ityBufferB， 20 定义 byteCapacity 与 Channel 中 所 有 event 的 估计 总 大 小 
Ee 之 间 的 缓冲 区 百分比 ,以 计算 header 中 的 数据 ( 见 下 文 ) 
允许 此 Channel 中 所 有 event 的 最 大 内 存 字 节 数 总 和 。 
该 统计 仅 计 算 Event body, 这 也 是 提供 
byteCapacity ( 见 说 明 ) | byteCapacityBufferPercentage 配置 参数 的 原因 。 默 认 计 


算 值 ,等 于 JVM 可 用 的 最 大 内 存 的 80%( 即 命令 行 传递 
的 -Xmx 值 的 80%) 


使 用 Memory Channel 通道 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


2. File Channel 


File Channel 是 Flume 的 持久 通道 , 它 将 所 有 event 写 入 磁盘 ,因此 不 会 丢失 进程 或 机 
器 关机 、 崩 溃 时 的 数据 。File Channel 通过 在 一 次 事务 中 提交 多 个 event 来 提高 吞吐 量 , 做 
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到 了 只 要 事务 被 提交 ,那么 数据 就 不 会 有 丢失 。 
File Channel 提供 的 常用 配置 属性 ,如 表 8-8 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-8 Memory Channel 常用 属性 


属性 名 称 默 认 值 说 有 明 
type 一 组 件 类 型 名 必须 是 file 
checkpointDir 一 /. flume/fle-channel/checkpoint | 检测 点 文件 所 存储 的 目录 
useDualCheckpoints false 全 年 全 ER 
aapcheaupoimDir | — 各 从 检查 点 上 条。 此 月 洒 不 能 与 所 上 
dataDirs ~/. flume/file-channel/data 数据 存储 所 在 的 目录 设置 
transactionCapacity “| 10000 事务 容量 的 最 大 值 设 置 
checkpointInterval 30000 检测 点 之 间 的 时 间 值 设置 (ms) 
maxFileSize 2146435071 一 个 单一 日 志 的 最 大 值 设置 (以 字 节 为 单位 ) 
capacity 1000000 Channel 的 最 大 容量 


使 用 File Channel 通道 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


本 节 列 举 了 Flume 1. 8.0 版 本 支持 的 Flume Channels ,并 对 其 中 常用 的 Channels 进行 
了 说 明 ,读者 还 可 以 参考 官网 http://flume. apache. org/FlumeUserGuide. html # flume- 
channels 学 习 其 他 Flume Channels 的 详细 说 明和 配置 。 


8.3.3 Flume Sinks 


Flume Sources 采集 到 的 数据 通过 Channels 就 会 流向 Sink 中 ,此 时 的 Sink 类 似 一 个 
集结 的 递 进 中 心 , 它 需 要 根据 后 续 需 求 进行 配置 ,从 而 最 终 选 择 是 将 数据 直接 进行 集中 式 存 
储 (例如 ,直接 存储 到 HDFS 中 ) ,还 是 继续 作为 其 他 Agent 的 Source 进行 传输 。 

在 配置 Sinks 时 ,需要 明确 的 就 是 将 要 传输 的 数据 目的 地 、 结 果 类 型 ;接着 ,根据 这 些 实 
际 需求 信息 ,选择 Flume 已 提供 支持 的 Flume Sinks; 然 后 ,再 根据 选择 的 Sinks 类 型 ,配置 
必要 和 非 必 要 的 Sinks 属性 。 

在 Flume 1. 8.0 中 ,Flume 提供 并 支持 的 Flume Sinks 有 很 多 ,如 表 8-9 所 示 。 


表 8-9 Flume Sinks 种 类 


HDFS Sink 


Hive Sink 


Logger Sink 


Avro Sink 


Thrift Sink 


IRC Sink 
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续 表 
File Roll Sink Null Sink HBaseSink 
AsyncHBase Sink MorphlineSolr Sink ElasticSearch Sink 
Kite Dataset Sink Kafka Sink HTTP Sink 
Custom Sink 


行 分 


表 8-9 就 是 Flume 1. 8.0 官网 文档 展示 的 Flume 提供 支持 的 Flume Sinks, 接 下 来 ,就 
对 其 中 一 些 常 用 的 Flume Sinks 进行 讲解 说 明 。 


1. HDFS Sink 


HDFS Sink 将 event 写 人 Hadoop 分 布 式 文件 系统 (HDFS) , 它 目 前 支持 创建 文本 和 序 
列 文件 ,以 及 两 种 类 型 的 压缩 文件 。 
HDFS Sink 可 以 基于 经 过 的 时 间或 数据 大 小 或 event 数量 来 周期 性 地 滚动 文件 (关闭 
当前 文件 并 创建 新 文件 ) ,同时 , 它 还 通过 属性 (如 event 发 生 的 时 间 戳 或 机 器 ) 来 对 数据 进 
桶 /分 区 。HDFS 目录 路 径 可 能 包含 将 由 HDFS 接收 器 替换 的 格式 化 转 义 序列 ,以 生成 
用 于 存储 event 的 目录 /文件 名 ,使 用 HDFS Sink 时 需要 安装 Hadoop ,以便 Flume 可 以 使 
用 Hadoop jar 与 HDFS 集群 进行 通信 。 

HDFS Sink 提供 的 常用 配置 属性 ,如 表 8-10 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-10 HDFS Sink 常用 属性 


属性 名 称 默 认 值 说 明 
channel 
type 一 组 件 类 型 名 必须 是 hdfs 
hdfs. path 二 HDFS 目录 路 径 ( 如 hdfs://namenode/flume/webdata/) 
hdfs. filePrefix FlumeData | 为 在 hdfs 目录 中 由 Flume 创建 的 文件 指定 前 级 
i jolie 是 否 应 将 时 间 戳 向 下 伟人 (如 果 为 true, 则 影响 除 %t 之 外 的 
所 有 基于 时 间 的 转 义 序列 
hdfs, roundValue . 伟人 到 此 最 高 倍数 (在 使 用 hdfs. roundUnit 配置 的 单位 中 )， 
询 小 于 当前 时 间 
hdfs. roundUnit second 舍 人 值 的 单位 ( 秒 、 分 钟 或 小 时 ) 
hdfs. rollInterval 30 滚动 当前 文件 之 前 等 待 的 秒 数 (0 二 根据 时 间 间 隔 从 不 滚动 ) 
hdfs rollSize 1024 触发 滚动 的 文件 大 小 ,以 字 节 为 单位 (0: 永 不 基于 文件 大 小 
滚动 ) 
hdfs. rollCount 10 在 滚动 之 前 写 和 文件 的 事件 数 (0 王 从 不 基于 事件 数 滚动 ) 
hdfs. batchSize 100 在 将 文件 刷新 到 HDFS 之 前 写 入 文件 的 event 数 
lis oatiineSbap:. | eee 替换 转 义 序列 时 ,请 使 用 本 地 时 间 ( 而 不 是 event header 中 的 


时 间 戳 ) 
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使 用 HDFS Sink 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.dhamels= cl 

al.sinks= 区 

al.sinks.kl.type=hafs 

al.sinks.kl.dannel= cl 

al.sinks.k .hdfs.pathr /Flime/events/%y- Sm- $d/SHM/SS 
al.sinks.JL.hafs.fileprefix= events— 
al.sinks.kl.hafs.rond- tne 
al.sinks.klL.hafs.rounqvalue= 10 
al.sinks.JLhafs.rounaDnit=minute 


2. Logger Sink 


Logger Sink 用 于 记录 INFO 级 别 event', 它 通常 用 于 调试 。Logger Sink 接收 器 的 不 同 


之 处 是 它 不 需要 在 “记录 原始 数据 ”部 分 中 说 明 额 外 的 配置 。 


Logger Sink 提供 的 常用 配置 属性 ,如 表 8-11 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 
表 8-11 Logger Sink 常用 属性 


属性 名 称 默 认 值 说 有 明 
channel = 
type 学 组 件 类 型 名 必须 是 logger 
maxBytesToLog 16 要 记录 的 event body 的 最 大 字 节 数 


使 用 HDFS Sink 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 
al.dhamnels- cl 
al.sink— Kl 


al.sinks.ki.type= logger 
al.sinks.XL.channel= cl 


3. Avro Sink 


Avro Sink 形成 了 Flume 的 分 层 收集 支持 的 一 半 ,发送 到 此 接收 器 的 Flume event 将 转 


换 为 Avro event 并 发 送 到 配置 的 主机 名 /端口 对 上 ,event 将 从 配置 的 Channel 中 批量 获取 
配置 的 批 处 理 大 小 。 


Avro Sink 提供 的 常用 配置 属性 ,如 表 8-12 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 
表 8-12 Avro Sink 常用 属性 


属性 名 称 默 认 值 说 明 
channel 一 
type 抒 组 件 类 型 名 必须 是 avro 
hostname 二 要 监听 的 主机 名 或 IP 地 址 
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续 表 
属性 名 称 默 认 值 说 明 
port = 要 监听 的 服务 端口 
batch-size 100 要 一 起 批量 发 送 的 event 数 
connect-timeout 20000 允许 第 一 次 (握手 ) 请 求 的 时 间 量 (ms) 
request-timeout 20000 在 第 一 个 之 后 允许 请 求 的 时 间 量 (ms) 


使 用 Avro Sink 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.chamels= cl 
al.sink= kK 

al.sinks.kl.type= avro 
al.sinks.kKl.channel= cl 
al.sinks.kl.hostname= 10.10.10.10 
al.sinks.Kl.port= 4545 


本 节 列 举 了 Flume 1. 8. 0 版 本 支持 的 Flume Sinks, 并 对 其 中 常用 的 Sinks 进行 了 说 
明 ,读者 还 可 以 参考 官网 http://flume. apache. org/FlumeUserGuide. html # flume-sinks 
学 习 其 他 Flume Sinks 的 详细 说 明和 配置 。 


8.4 Flume 的 可 靠 性 保证 


在 前 面 讲解 的 Flume 入 门 使 用 中 ,配置 的 采集 方案 是 通过 唯一 一 个 Sink 作为 接收 器 来 
接收 后 续 需 要 的 数据 ,但 有 时 候 会 出 现 当 前 Sink 故障 或 者 数据 收集 请 求 量 较 大 的 情况 ,这 
时 候 单一 的 Sink 配置 可 能 就 无 法 保证 Flume 开发 的 可 靠 性 。 为 此 ,Flume 提供 了 Flume 
Sink Processors(Flume Sink 处 理 器 ) 来 解决 上 述 问题 。 

Sink 处 理 器 允许 开发 者 定义 一 个 Sink groups( 接 收 器 组 ) ,将 多 个 Sink 分 组 到 一 个 实 
体 中 ,这 样 Sink 处 理 器 就 可 以 通过 组 内 的 多 个 Sink 为 服务 提供 负载 均衡 功能 ,或 者 是 在 某 
个 Sink 出 现 短暂 故障 的 时 候 实现 从 一 个 Sink 到 另 一 个 Sink 的 故障 转移 。 


8.4.1 负载 均衡 


负载 均衡 接收 器 处 理 器 (Load balancing sink processor) 提 供 了 在 多 个 Sink 上 进行 负 
载 均衡 流 量 的 功能 , 它 维护 了 一 个 活跃 的 Sink 索引 列表 ,必须 在 其 上 分 配 负载 。Load 
balancing sink processor 支持 使 用 round_robin( 轮 询 ) 和 random( 随 机 ) 选 择机 制 进行 流量 
分 配 , 其 默认 选择 机 制 为 round _robin, 但 可 以 通过 配置 进行 覆盖 ,还 支持 继承 
AbstractSinkSelector 的 自 定义 类 来 自 定义 选择 机 制 。 

在 使 用 时 ,选择 器 (selector) 会 根据 配置 的 选择 机 制 挑选 下 一 个 可 用 的 Sink 并 进行 调 
用 。 对 于 round_robin 和 random 两 种 选择 机 制 ,如 果 所 选 Sink 无 法 收集 event, 则 处 理 器 
会 通过 其 配置 的 选择 机 制 选择 下 一 个 可 用 Sink。 这 种 实现 方案 不 会 将 失败 的 Sink 列 和 人 黑 
名 单 , 而 是 继续 乐观 地 尝试 每 个 可 用 的 Sink。 如 果 所 有 Sink 都 调用 失败 , 则 选择 器 将 故障 
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传播 到 接收 器 运行 器 (sink runner) 。 

如 果 启用 了 backoff 属性 , 则 Sink 处 理 器 会 将 失败 的 Sink 列 入 黑 名 单 。 当 超时 结束 
时 ,如 果 Sink 仍然 没有 响应 , 则 超时 会 呈 指 数 级 增加 ,以 避免 在 无 响应 的 Sink 上 长 时 间 等 
待 时 卡 住 。 在 禁用 backoff 功能 的 情况 下 ,在 round_robin 机 制 下 ,所 有 失败 的 Sink 将 被 传 
递 到 Sink 队列 中 的 下 一 个 Sink 后 ,因此 不 再 均衡 。 

Load balancing sink processor 提供 的 配置 属性 ,如 表 8-13 所 示 (加 粗 部 分 为 必须 
属性 ) 。 


表 8-13 ”Load balancing sink processor 属性 说 明 


属性 名 称 默 认 值 说 有明 
sinks 党 以 空格 分 隔 的 参与 sink 组 的 sink 列表 
processor. type default 组 件 类 型 名 必须 是 load_balance 
processor. backoff false 设置 失败 的 sink 进入 黑 名 单 

1 pe 选择 机 制 。 必 须 是 round_robin、random 或 是 继承 自 
”| AbstractSinkSelector 的 自 定义 选择 机 制 类 全 路 径 名 
processor. selector. maxTimeOut | 30000 失败 sink 放置 在 黑 名 单 的 超时 时 间 , 失 败 sink 在 指 
“ 定时 间 后 仍 无 法 启用 , 则 超时 时 间 呈 指数 增加 


从 表 8-13 可 以 看 出 ,processor. type 属性 的 默认 值 为 default, 这 是 因为 Sink 处 理 器 的 
processor. type 提供 了 3 种 处 理 机 制 : default (默认 值 )、failover 和 load_balance。 其 中 ， 
default 表示 配置 单独 一 个 sink( 如 8. 2. 3 节 中 的 入 门 使 用 ) ,配置 和 使 用 非常 简单 ,同时 也 
不 强制 要 求 使 用 sink group 进行 封装 ;另外 的 failover 和 load_balance 就 分 别 代 表 故 障 转 移 
和 负载 均衡 情况 下 的 配置 属性 。 

使 用 Load balancing sink processor 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


al.5inkgroupe=- gl 

al.sinkgroups.gl.sinks=kl 2 
al.sinkgroups.gl.processor.type= load balance 
al.sinkgproups .gl .prooessor.backoff= true 
al.sinkgroups .gl.processor.selector= Tandom 


讲解 完 Load balancing sink processor 的 运行 机 制 和 配置 后 ,结合 官方 图 示 , 展 示 这 种 
情况 下 的 Flume 结构 图 ,如 图 8-11 所 示 。 

接 下 来 ,使 用 前 面 已 学 的 Load balancing sink processor 的 相关 知识 ,并 结合 图 8-11 所 
示 结 构图 ,通过 一 个 案例 来 演示 Load balancing sink processor 的 基本 配置 和 使 用 (由 于 电 
脑 内 存 配置 等 原因 ,此 案例 只 演示 两 个 sink 分 支 的 使 用 ) 。 


1. 搭建 并 配置 Flume 机 器 


打开 前 面 学 习 过 程 中 配置 的 hadoop01 hadoop02 和 hadoop03 三 台 虚 拟 机 作为 本 次 案 
例 运行 的 机 器 。 先 将 在 hadoop01 机 器 上 的 Flume 和 profile 配置 文件 使 用 scp 命令 安装 到 
hadoop02 和 hadoop03 机 器 上 ,具体 指令 如 下 。 
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channel 0 


CN) CD 
CE 


Agent4 


图 8-11 ”Load balancing sink processor 结构 图 


5 scp -r /export/servers/flume hadbop02:/export/servers/ 
$ sqp -r /export/servers/flime hadbop03:/export/servers/ 
$ saqp /etc/profile hadoop02:/etc/profile 
$ sqp /etc/profile hadbop03:/etc/profile 


执行 完 上 述 指 令 后 ,还 需要 在 hadoop02 和 hadoop03 机 器 上 执行 “source /etc/profile” 
指令 ,立即 刷新 配置 。 


2. 配置 Flume 采集 方案 


(1) 在 hadoop01 上 配置 图 8-12 所 示 的 第 一 级 采集 配置 ,在 /export/servers/flume/ 
conf 目录 下 编写 采集 方案 exec-avro. conf, 如 文件 8-2 所 示 。 
文件 8-2 exec-avro. conf 


# 配置 Ioad balancing sink processcr 一 级 采集 方案 
蛋 .SoUrces-I 

# 用 空格 分 隔 配置 了 两 个 sink 

引 .sinks=kdl 2 

本 .channels=- cl 

# 描述 并 配置 sources 组 件 数据 源 类 型 .采集 数据 源 的 应 用 地 址 ) 
引 .Sources.Il.channe]s cl 

a1.sources.r1.type= exec 

引 .5ources.rl.comrandF tail - F /root/logs/123.1og 

# 描述 并 配置 cnannels 

al.channels.cl.type=memcry 

引 .Ghannels.cl.capacity- 1000 
al.channels.cl.transactioncapacity- 100 

# 设置 sinkd, 由 hadoop02 上 的 rgent 进行 采集 
al.sinks.ki.chanmmel= cl 
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在 文件 8-2 中 ,设置 了 一 个 名 为 al 的 Agent, 在 该 Agent 内 部 设置 了 source. type 一 
exec 和 source. command 二 tail -F /root/logs/123. log 用 来 监控 收集 一 个 123. log 文件 的 
变化 ;然后 通过 sink. type 为 avro 的 sinkl 和 sink2 的 Sink 组 ,使 用 load_balance 处 理 机 制 
将 sinkl 传送 给 hadoop02 机 器 52020 端口 ,将 sink2 传送 给 hadoop03 机 器 52020 端口 进入 
下 一 阶段 Agent 的 收集 处 理 。 

(2) 在 hadoop02 和 hadoop03 机 器 上 针对 图 8-12 所 示 的 一 级 采集 配置 的 两 个 Sink 配 
置 第 二 级 Agent 的 采集 方案 ,分 别 在 hadoop02 和 hadoop03 的 /export/servers/flume/conf 
目录 下 编写 各 自 的 采集 方案 avro-logger. conf, 如 文件 8-3 和 文件 8-4 所 示 。 

文件 8-3 avro-logger. conf 


文件 8-4 avro-logger. conf 
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al.sinks= jd 

al.channels= cl 

# 描述 并 配置 sources 组 件 数据 源 类 型 .采集 数据 源 的 应 用 地 址 ) 
局 .sources.TL.type= avro 

al.sources.r1 .binde= hacoqp03 

引 ,sources.zL.Port= 52020 

# 描述 并 配置 sinks 组 件 保 集 后 的 数据 流出 的 类 型 ) 
al.sinks.JdLtype= lcgger 

# 描述 并 配置 cannels 

al.channels.cl.type=memory 

引 .channels.cl.capacity- 1000 
al.channels.cl.transactioncapacity= 100 

# 将 Source 和 sink 通过 同一 个 Channel 连接 绑 定 
1.souroes.rl.channels=cl 

17 al.sinks.Kl.hamnel= cl 
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在 文件 8-3 和 文件 8-4 中 ,两 个 采集 方案 内 容 的 唯一 区 别 就 是 source. bind 的 不 同 ， 
hadoop02 机 器 的 source. bind 王 hadoop02 ,而 hadoop03 机 器 的 source. bind 二 hadoop03。 在 
上 述 两 个 文件 中 , 均 设置 了 一 个 名 为 al 的 Agent, 在 该 Agent 内 部 设置 了 source. type 一 
avro、source. bind 二 hadoop02/hadoop03 以 及 source. port 一 52020, 特意 用 来 对 接 在 
hadoop01 中 前 一 个 Agent 收集 后 到 Sink 的 数据 类 型 和 配置 传输 的 目标 ;最 后 ,又 设置 了 二 
级 采集 方案 的 sink. type 一 logger, 将 二 次 收集 的 数据 作为 日 志 收 集 打印 。 


3. 启动 Flume 系统 


有 多 级 Agent 传输 收集 数据 时 ,需要 先 从 最 后 级 的 Flume 机 器 上 启动 Flume。 先 分 别 
进入 hadoop02 和 hadoop03 机 器 中 Flume 的 解压 目录 ,然后 分 别 启动 各 自 的 Flume, 具 体 
指令 如 下 。 


$ flime- ng agent ~ ~ oonf conf/ - ~ oonf- file conf/avro- logger.aonf \ 
一 -Tanme al - Dflime.roct.logger= INED,console 


在 hadoop02 和 hadoop03 机 器 上 分 别 执行 上 述 指令 并 启动 Flume 后 ,再 在 hadoop01 
机 器 的 Flume 的 解压 目录 下 启动 Flume, 具 体 指令 如 下 。 


$ flime- ng agent ~ ~ oonf conf/ - ~ oonf- file conf/esec- avro.conf \ 
-~nanm al - Dflume.root.logger= INEO, omsole 


在 hadoop02、hadoop03 和 hadoop01 执行 完 启动 Flume 的 指令 后 ,效果 分 别 如 图 8-12、 
图 8-13 和 图 8-14 所 示 。 


4. Flume 系统 负载 均衡 测试 
在 数据 项 级 采集 节点 hadoop01 上 ,重新 打开 或 者 克隆 一 个 终端 ,执行 如 下 指令 。 


$ While true; db echo "acoess access ..” > > /moot/logs/123.1og7 \ 
sleep 17done 
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图 8-14 hadoop01 效果 图 
上 述 指令 会 每 隔 1s 向 123. log 文件 中 追加 内 容 , 从 而 引起 文件 的 变更 ,来 让 Flume 采 


集 方案 生效 。 注 意 , 如 果 /root/logs 目录 不 存在 的 话 . 需 要 提前 创建 。 


执行 完 上 述 指 令 后 ,再 次 查看 hadoop02 和 hadoop03 中 启动 Flume 的 终端 窗口 ,会 发 
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现 两 台 机 器 上 的 Flume 系统 几乎 是 轮流 采集 并 打印 出 收集 得 到 的 数据 信息 ,效果 如 图 8-15 
所 示 。 
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图 8-15 ”hadoop02 和 hadoop03 负载 均衡 效果 图 


8.4.2 故障 转移 


故障 转移 接收 器 处 理 器 (Failover Sink Processor) 维 护 一 个 具有 优先 级 的 sink 列表 , 保 
证 在 处 理 event 只 要 有 一 个 可 用 的 sink 即 可 。 

故障 转移 机 制 的 工作 原理 是 将 故障 的 sink 降级 到 故障 池 中 ,在 池 中 为 它们 分 配 一 个 冷 
却 期 ,在 重 试 之 前 冷却 时 间 会 增加 , 当 sink 成 功 发 送 event 后 , 它 将 恢复 到 活跃 池 中 。sink 
具有 与 之 相关 的 优先 级 ,数值 越 大 ,优先 级 越 高 。 如 果 在 发 送 event 时 sink 发 生 故 障 , 则 会 
尝试 下 一 个 具有 最 高 优先 级 的 sink 来 继续 发 送 event。 如 果 未 指定 优先 级 , 则 根据 配置 文 
件 中 指定 sink 的 顺序 确定 优先 级 。 

Failover Sink Processor 提供 的 配置 属性 ,如 表 8-14 所 示 ( 加 粗 部 分 为 必须 属性 )。 


表 8-14 ”Failover Sink Processor 属性 说 明 


属性 名 称 默 认 值 说 明 
sinks eo 以 空格 分 隔 的 参与 sink 组 的 sink 列表 
Processor. type default 组 件 类 型 名 必须 是 failover 
processor. priority. <sinkName> 一 设置 sink 的 优先 级 取 值 
processor. maxpenalty 30000 失败 sink 的 最 大 退 避 时 间 


使 用 Failover Sink Processor 配置 一 个 名 称 为 al 的 Agent 示例 如 下 。 


引 .sinkgroupe= gl 

al.sinkgroups.gl.sinks= Ja 也 

引 .sinkgroups.g1.processor.type= failover 
al.sinkgroups .gl.prooessor.priority.kl=5 
al.sinkgroups.gl .prooessor.priority.k2=10 
al.5inkgmroups5.g1.processor .maxpenalty= 10000 
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从 前 面 Failover Sink Processor 的 相关 讲解 和 配置 示例 可 以 看 出 , Failover Sink 
Processor 与 Load balancing sink processor 的 Flume 结构 图 基本 一 样 。 而 这 两 种 处 理 器 的 
主要 区 别 在 于 ,Load balancing sink processor 中 会 让 每 一 个 活跃 的 sink 轮流 /随机 地 处 理 
event; 而 Failover Sink Processor 只 允许 一 个 活跃 的 且 优先 级 高 的 sink 来 处 理 event, 只 有 
在 当前 sink 故障 后 才 会 向 下 继续 选择 另 一 个 活跃 的 且 优 先 级 高 的 sink 来 处 理 event。 

关于 Failover Sink Processor 的 使 用 案例 可 以 参考 8. 4. 1 中 负载 均衡 的 案例 进行 配置 ， 
在 配置 过 程 中 只 需要 注意 修改 processor. type 一 failover, 同时 参考 Failover Sink 
Processor 的 属性 设置 即 可 ,这 里 就 不 再 演示 说 明了 。 


8.5 Flume 拦截 器 


Flume Interceptors( 拦 截 器 ) 主要 用 于 实现 对 Flume 系统 数据 流 中 event 的 修改 操作 。 
在 使 用 Flume 拦截 器 时 ,只 需要 参考 官方 配置 属性 在 采集 方案 中 选择 性 地 配置 即 可 , 当 涉 
及 配置 多 个 拦截 器 时 ,拦截 器 名 称 中 间 需 要 用 空格 分 隔 , 并 且 拦 截 器 的 配置 顺序 就 是 拦截 
顺序 。 

在 Flume 1. 8.0 版 本 中 ,Flume 提供 并 支持 的 Flume 拦截 器 有 很 多 ,并 且 它 们 都 是 
org. apache. flume. interceptor. Interceptor 接口 的 实现 类 ,如 表 8-15 所 示 。 


表 8-15 Flume Interceptors 


Timestamp Interceptor Host Interceptor Static Interceptor 
Remove Header Interceptor UUID Interceptor Morphline Interceptor 
Search and Replace Interceptor Regex Filtering Interceptor Regex Extractor Interceptor 


表 8-15 就 是 Flume 1. 8.0 官网 文档 展示 的 Flume 提供 支持 的 Flume 拦截 器 , 接 下 来 ， 
就 选取 其 中 个 别 常用 的 Flume 拦截 器 进行 讲解 说 明 。 

1. Timestamp Interceptor 

Timestamp Interceptor( 时 间 惟 拦截 器 ) 会 将 流程 执行 的 时 间 插 入 到 event 的 header 头 
部 。 此 拦截 器 插入 带 有 timestamp 键 ( 或 由 header 属性 指定 键 名 ) 的 标 头 , 其 值 为 对 应 时 间 


惟 。 如 果 配 置 中 已 存在 时 间 惟 时 ,此 拦截 器 可 以 保留 现 有 的 时 间 戳 。 
Timestamp Interceptor 提供 的 常用 配置 属性 .如 表 8-16 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-16 ”Timestamp Interceptor 属性 说 明 


属性 名 称 默 认 值 说 有 明 
type ke 组 件 类 型 名 必须 是 timestamp 
header timestamp 用 于 放置 生成 的 时 间 截 的 标 头 的 名 称 


preserveExisting false 如 果 时 间 截 已 存在 ,是 否 应 保留 ,true 或 false 
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为 名 称 为 al 的 Agent 中 配置 Timestamp Interceptor 的 示例 如 下 。 


2. Static Interceptor 


Static Interceptor( 静 态 拦 截 器 ) 允 许 用 户 将 具有 静态 值 的 静态 头 附 加 到 所 有 event。 当 
前 实现 不 支持 一 次 指定 多 个 header 头 ,但 是 用 户 可 以 定义 多 个 Static Interceptor 来 为 每 一 
个 拦截 器 都 追加 一 个 header。 

Static Interceptor 提供 的 常用 配置 属性 ,如 表 8-17 所 示 ( 加 粗 部 分 为 必须 属性 ) 。 


表 8-17 Static Interceptor 属性 说 明 


type - 组 件 类 型 名 必须 是 static 
preserveExisting true 如 果 配 置 的 header 已 存在 ,是 否 应 保留 
key key 应 创建 的 header 的 名 称 

value value 应 创建 的 header 对 应 的 静态 值 


为 名 称 是 al 的 Agent 中 配置 Static Interceptor 的 示例 如 下 。 


3. Search and Replace Interceptor 


Search and Replace Interceptor( 查 询 和 替换 拦截 器 ) 基 于 Java 正则 表达 式 提供 了 简单 
的 用 于 字符 串 的 搜索 和 替换 功能 ,同时 还 具有 进行 回溯 / 群 组 捕捉 功能 。 此 拦截 器 的 使 用 与 
Java Matcher. replaceAll() 方 法 具有 相同 的 规则 。 

Search and Replace Interceptor 提供 的 常用 配置 属性 ,如 表 8-18 所 示 ( 加 粗 部 分 为 必须 
属性 ) 。 
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表 8-18 ”Search and Replace Interceptor 属性 说 明 


属性 名 称 默 认 值 说 明 
type = 组 件 类 型 名 必须 是 search_replace 
searchPattern 一 要 查询 或 替换 的 模式 
replaceString 和 替换 的 字符 串 
it UTF-8 event body 的 字符 集 , 默 认为 UTF-8 


为 名 称 为 al 的 Agent 中 配置 Search and Replace Interceptor 的 示例 如 下 。 


al.sources=I1 

引 .Ghannelscl 

引 .sources.I.channelscl 

al.sources.rl.type= seq 

引 .scurces.avroSrc.jnterceptors= 订 

al .souroes .avroSrc.interosptors.il.type= search _ replace 

+ 删除 event body 中 的 前 导 字 母 数字 字符 

al .sources .avrosrc.interoeptors.il.searchpattem= ^[A- Za- 2z0- 9 ]+ 
al .Souroes.avroSrc. interosptors.il.replaceString= 


本 节 列 举 了 Flume 1. 8.0 版 本 支持 的 Flume Interceptors ,并 对 其 中 常用 的 几 种 Flume 
Interceptors 进行 了 解释 说 明 , 读 者 还 可 以 参考 官网 文档 http://flume. apache. org/ 
FlumeUserGuide. html# flume-interceptors 学 习 其 他 所 有 的 Flume Interceptors 的 详细 说 
明和 配置 。 

小 提示 : 本 节 主 要 针对 Flume 官方 提供 的 内 置 拦 截 器 进行 了 讲解 说 明 ,在 实际 开发 中 ， 
这 些 拦截 器 也 许 还 不 能 满足 Flume 系统 的 开发 需求 ,这 时 开发 人 员 还 可 以 通过 实现 
org. apache. flume. interceptor. Interceptor 接口 来 自 定 义 Flume 拦截 器 ,在 该 自 定 义 拦截 器 
中 定义 相关 属性 和 拦截 方法 ,同时 在 采集 方案 中 进行 引入 配置 即 可 。 关 于 Flume 自 定义 拦 
截 器 的 具体 说 明和 使 用 ,有 兴趣 的 读者 可 以 自行 查询 相关 资料 ,本 书 就 不 做 详细 讲解 了 。 


8.6 案例 一 一 日 志 采 集 


通过 前 面 的 学 习 , 相 信 读 者 对 Flume 的 使 用 已 经 有 了 一 定 的 了 解 ,本 节 就 通过 一 个 模 
拟 日 志 采 集 的 案例 来 演示 Flume 的 基本 使 用 。 


8.6.1 案例 分 析 


假设 有 一 个 生产 场景 ,两 台 服务 器 A、B 在 实时 产生 日 志 数据 ,日 志 类 型 主要 为 access 
.log .nginx. log 和 web. log。 现 需要 将 A、B 两 台 服 务 器 产生 的 日 志 数 据 access. log .nginx 
.log 和 web. log 采集 汇总 到 C 服务 器 上 ,并 统一 收集 上 传 到 HDFS 上 保存 ,而 在 HDFS 中 
保存 日 志 数 据 的 文件 必须 按照 以 下 要 求 进行 归 类 统计 (20180723 表示 收集 日 志 数据 的 当前 
日 期 ) : 

。 /source/logs/access/20180723/## 
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。 /source/logs/nginx/20180723/x* 

。 /source/logs/web/20180723/xx 

通过 前 面 介绍 的 需求 说 明 , 并 结合 之 前 已 学 的 Flume 的 相关 知识 ,可 以 对 该 案例 进行 
分 析 并 得 到 如 下 结果 。 

(1) 从 “将 A、B 两 台 服务 器 的 日 志 数 据 采 集 到 C 服务 器 ,并 上 传 到 HDFS 上 保存 ”这样 
的 需求 可 知 , 该 案例 可 以 使 用 Flume 和 Hadoop 技术 相 结合 来 实现 。 在 A、B 两 台 机 器 上 使 
用 Flume 收集 日 志 数据 ,然后 汇总 到 另 一 台 安 装 Flume 系统 的 C 机 器 上 ,并 最 终结 合 
Hadoop 集群 ,将 日 志 数 据 上 传 到 HDFS 上 。 

(2) 从 “在 HDFS 中 日 志文 件 按照 指定 格式 归 类 统计 ”这 样 的 需求 可 知 ,单纯 按照 传统 
的 Flume 数据 采集 汇总 后 无 法 得 知 日 志 数 据 类 型 ,所 以 这 里 可 以 借助 于 Flume 提供 的 拦截 器 对 
收集 的 文件 进行 标记 ,这 样 在 后 续 数 据 接收 上 传 的 时 候 就 可 以 根据 标记 进行 文件 类 型 的 区 分 了 。 

接 下 来 ,就 通过 前 面 的 案例 分 析 使 用 一 张 日 志 数 据 采 集 流程 图 ,来 展示 本 次 日 志 采 集 案 
例 的 实现 流程 ,如 图 8-16 所 示 。 

A 服务 器 


, interceptor 


Channel 


C 服 务 器 


B 服 务 器 


，interceptor 


Channel 


Sources Sink 


图 8-16 日 志 数 据 采集 流程 图 


8.6.2 案例 实现 


在 完成 对 日 志 采 集 案例 的 分 析 后 , 接 下 来 就 通过 图 8-16 所 示 的 日 志 采 集 流程 图 来 实现 
具体 的 案例 ,案例 具体 实现 步骤 如 下 。 


1. 服务 系统 搭建 与 配置 


根据 案例 需求 要 启动 3 台 服 务 器 ,并 且 同 时 搭建 Flume 系统 和 Hadoop 集群 ,此 次 演示 
就 仍 以 前 面 学 习 过 程 中 搭建 的 hadoop01、hadoop02 和 hadoop03 虚拟 机 作为 本 次 案例 实现 
的 主机 。 

其 中 ,在 hadoop01、hadoop02 和 hadoop03 这 3 台 机 器 上 已 经 安装 过 Flume 系统 和 
Hadoop 集群 了 ,此 处 就 不 再 演示 说 明了 。 另 外 ,根据 流程 图 ,此 案例 将 hadoop02 和 
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hadoop03 分 别 作 为 A 服务 器 和 B 服务 器 进行 第 一 阶段 的 日 志 数 据 采集 ,将 hadoop01 作为 
C 服务 器 进行 日 志 数 据 的 汇总 并 上 传 至 HDFS。 


2. 配置 采集 方案 


(1) 在 hadoop02 和 hadoop03 各 自 机 器 的 /export/servers/flume/conf 目录 下 编写 同 
样 的 日 志 采 集 方案 exec-avro_logCollection. conf, 如 文件 8-5 所 示 。 
文件 8-5 exec-avro_logCollection. conf 


# 配置 gent 组 件 

# 用 3 个 scurce 采 集 不 同 的 日 志 类 型 数据 
al.sources=I1 2 I3 

al.sinks=K1 

al.hannels=cl 

# 描述 并 配置 第 一 个 sources 组 件 包括 自 带 的 静态 拦截 器 ) 
引 .sources. 世 .type= exec 

引 .soUrces,IL.cammendr tail - F /root/1ogs/access.1og 
引 ,soUrces,IzLinberceptors= 订 

10 al.sources,zLimtberceptors,il,typer static 

1 al.sources.rl.interceptors.il.key= type 

12 al.sources.rl.interosptors.il.value= access 

13 + 描述 并 配置 第 二 个 sources 组 件 包括 自 带 的 静态 拦截 器 ) 
14 al.sourcess.I2.type= exec 

15 al,sources.r2.0mmende tail -了 /root/logs/ngirx.10g 
16 al.sources.r2.interosptors=i2 

17 al.sources.r2.interosptors.i2.type= static 

18 al.sources.r2.interosptors.i2.key= type 

19 al.Sources.r2.interosptors.i2.value= ngirx 

20 +# 描述 并 配置 第 三 个 sources 组 件 包括 自 带 的 静态 拦截 器 ) 
21 al.sources.T3.type= exec 

22 al,sourcss.I3.camend= tail ~F /roct/logs/web.1cg 

23 al.sources.r3.interosptors=i3 

24 al.sourges.r3.interosptors.i3.type= static 

al .souroes.r3.interosptors.i3.key= type 

al ,Sources.r3.interceptors.i3.value= web 

# 描述 并 配置 channel 

al.channels.cl.type=memcry 
al.channels.cl.capacity= 2000000 
al.channels.cl.transactioncapacity= 100000 

# 描述 并 配置 sink 

al.sinks.kl.type=avro 

al.sinks.kl.hostname= hadbapOl 
al.sinks.Jd.port= 41414 

# 将 source、sink 与 channel 进行 关联 绑 定 
al.sources.rl.channels= cl 
al.sources.r2.channels= cl 
al.souroes.r3.channels= cl 

al.sinks.kl.dhannel= cl 


ovwvamuwmmwn nn 


SBBSIRB 


是 - 寺 、 轩 ,省 , 慎 - 归 -是 :是 


在 文件 8-5 中 ,设置 了 一 个 名 为 al 的 Agent, 在 该 Agent 内 部 设置 了 3 个 Source 来 采 
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集 不 同类 型 的 日 志 数 据 ;然后 针对 这 3 个 Source 进行 分 别 配置 ,在 配置 Source 时 ,通过 
source. command 一 tail -F /root/logs/xxx. log 用 来 监控 收集 某 个 日 志文 件 的 变化 ,同时 还 
配置 了 Flume 静态 拦截 器 ,用 来 向 event header 中 添加 静态 值 xxx( 日 志文 件 类 型 ,如 type: 
web) ;最 后 ,将 收集 到 的 数据 以 avro sink 形式 传输 给 hadoop01 机 器 的 41414 端口 应 用 ,让 
下 一 阶段 Agent 的 再 次 收集 处 理 。 

(2) 在 hadoop01 机 器 的 /export/servers/flume/conf 目录 下 编写 第 二 级 日 志 采 集 方案 
avro-hdfs_logCollection. conf, 如 文件 8-6 所 示 。 

文件 8-6 avro-hdfs_logCollection. conf 


在 文件 8-6 中 ,为 名 为 al 的 Agent 配置 了 一 个 HDFS sink 用 于 将 采集 数据 上 传 到 
HDFS 中 。 其 中 ,“hdfs. path 王 hdfs://hadoop01:9000/source/logs/ %{type}/%Y%m%d” 
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用 于 指定 采集 数据 的 上 传 路 径 , % {type} 可 以 用 于 获取 之 前 使 用 拦截 器 在 event header 中 
设置 的 key 值 ,“%Y%m%d” 用 于 获取 系统 当前 日 期 ,为 了 保证 “%Y%m%d” 可 以 正常 获 
取 日 期 ,在 该 Agent 中 配置 了 Timestamp 拦截 器 。 关 于 文件 中 HDFS sink 的 其 他 相关 配 
置 ,读者 可 以 查看 注释 说 明 , 也 可 以 查阅 官方 文档 说 明 。 

小 提示 : 在 编写 Flume 日 志 采 集 方 案 时 ,要 根据 实际 开发 需求 选择 合适 的 channel 类 
型 ,并 配置 合理 的 内 存 、 事 务 等 容量 大 小 ,然后 不 断 地 进行 测试 调 优 ,否则 在 启动 Flume 进 
行 日 志 采 集 时 会 感觉 效率 低下 ,甚至 是 会 出 现 系 统 内存 异 常 等 问题 。 


3. 启动 日 志 采 集 系 统 


(1) 在 Hadoop 集群 主 节点 hadoop01 机 器 上 启动 Hadoop 集群 。 可 以 执行 start-dfs 
. sh 和 start-yarn. sh 指令 来 分 别 启动 HDFS 和 YARN, 然 后 使 用 jps 指令 在 每 一 台 集群 节 
点 上 查看 Hadoop 集群 启动 效果 。 

(2) 先 在 配置 有 Flume 的 hadoop01 机 器 上 启动 Flume 系统 ,然后 再 在 hadoop02 和 
hadoop03 机 器 上 分 别 启动 Flume 系统 。 

进入 hadoop01 的 Flume 解压 目录 下 执行 如 下 指令 : 


5 flime- ng agent -coconf/ -Tconf/avro-hdfs logcollecticn.ccnf \ 
一 -Dame al - DFlume.roct.logger= INED,console 


再 进入 hadoop02 和 hadoop03 的 Flume 解压 目录 下 分 别 执行 如 下 指令 : 


$ flime- ng agent -cconf/ -~ £ onf/exec- avro logcollecticn.ccnf \ 
一 -Dame al - Dflime.roct.logger= INEO,console 


在 hadoop01 .hadoop02 和 hadoop03 机 器 上 分 别 启动 Flume 系统 后 ,查看 hadoop01 界 
面 启动 Flume 效果 ,如 图 8-17 所 示 。 

从 图 8-17 可 以 看 出 ,hadoop01 机 器 上 的 Flume 已 经 启动 并 且 连 接 到 了 hadoop02 和 
hadoop03 机 器 上 的 Flume 系统 。 

(3) 为 了 演示 日 志 采 集 案例 的 实验 效果 ,在 hadoop02 和 hadoop03 机 器 上 分 别克 隆 / 新 
建 3 个 会 话 窗口 ,并 且 在 打开 的 3 个 窗口 中 分 别 执行 如 下 指令 ,用 来 生产 日 志 数 据 。 


$ while true; db echo "access access .." > > /root/logs/access.log ; \ 
Sleep 1l;done 
$ while true; db echo "nginx nginx ." > > /root/logs/nginx.10g ; \ 


在 执行 上 述 指令 时 ,如 果 logs 目录 不 存在 , 则 需要 提前 创建 。 在 3 个 窗口 中 分 别 执行 
上 述 指令 后 ,会 不 断 循环 产生 数据 ,为 了 后 续 更 好 的 查看 效果 ,执行 一 会 后 就 可 以 直接 关 停 
上 述 3 个 指令 。 
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(1) 在 执行 完 上 一 步 的 while 循环 不 断 模拟 生成 日 志 数 据 后 ,可 以 再 次 查看 hadoop01 
机 器 会 话 窗口 信息 ,如 图 8-18 所 示 。 
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8-18 Flume 系统 采集 日 志 效 果 图 


从 图 8-18 可 以 看 出 ,hadoop01 机 器 上 的 Flume 系统 已 经 正确 汇总 了 来 自 hadoop02 和 
hadoop03 机 器 上 采集 的 数据 并 上 传 到 了 HDSF 上 。 

(2) 通过 浏览 器 输入 地 址 http://hadoop01: 50070( 集 群 IP/ 主 机 名 十 端口 ) 进 入 到 
Hadoop 集群 UI, 效 果 如 图 8-19 所 示 。 

从 图 8-19 可 以 看 出 ,Hadoop 集群 下 已 经 新 添加 了 一 个 Source 目录 。 单 击 进 入 Source 
目录 内 部 文件 存储 结构 ,效果 如 图 8-20 所 示 ( 以 access. log 文件 为 例 进行 展示 ) 。 
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[Da 
(@  @ 19216812113450070joqplorerhtmiz/ NEE | 妆 自 时 会 玫 国人 三 
Owner Group Size Last Modified Replication Block Size Name 
root supergroup oB 2018/4/17 上 午 61345 0 o8 2 
root supergroup oB 2018/4/17 下 午 8.59:42 0 on data 
-mr root supergroup 58 2018/4/17 上 F34426 3 128MB hdfsjava 
drwxr-xr-x root supergroup oB 2018/4/22 下 午 1241:58 0 08 hivedata 
drwxr-XT-X mot supergroup oB 2018/4/17 下 午 52234 0 08 Input 
-Wf mot Supergroup 7.83KB 2018/4/18 上 午 133:00 3 128 MB Iinstalllog 
drwxr-XT-X root Supergroup 08B 2018/4/20 上 午 116:42 0 08 ourputdir 
drwxr-xr-x root Upergroup 0B 2018/7/24 下 午 2:43:37 0 08 source 
drwxr-XT-X root Supergroup 08B 2018/4/22 下 千 429201 0 08 stu 
» yd 


图 8-19 Hadoop 集群 UI 
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图 8-20 ”Hadoop 集群 采集 日 志 数 据 存储 效果 


从 图 8-20 可 以 看 出 ,Hadoop 集群 下 已 经 按照 案例 需求 正确 保存 了 日 志文 件 。 此 时 ,还 
可 以 将 保存 的 文件 进行 下 载 . 查 看 采集 的 具体 数据 内 容 。 


8.7 ”本章 小 结 


本 章 详细 讲解 了 Hadoop 生态 圈 中 的 Flume( 日 志 采 集 系 统 ) 的 基本 知识 。 首 先 讲 解 了 
Flume 的 概念 .运行 机 制 和 结构 图 ;然后 ,通过 一 个 人 门 案例 讲解 了 Flume 的 安装 配置 和 基 
本 使 用 ,并 对 Flume 入 门 案例 中 涉及 的 采集 方案 进行 了 详细 讲解 ;接着 ,对 Flume 提供 的 可 
靠 性 保证 一 一 负载 均衡 和 故障 转移 分 别 进行 了 演示 说 明 ; 最 后 ,通过 一 个 具体 的 日 志 采 
集 案例 演示 了 Flume 配合 Hadoop 集群 的 基本 使 用 。 通 过 本 章 的 学 习 , 读 者 可 以 对 Flume 
有 一 定 的 认识 ,能 够 掌握 Flume 的 基本 配置 和 使 用 ,并 能 够 使 用 Flume 进行 基本 的 实际 
开发 。 
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8.8 课 后 习题 


一 、 填空 题 

1. Flume 分 为 两 个 版 本 ,分别 是 和 

2. Flume 的 核心 是 把 数据 从 数据 源 通过 集 过 来 ,再 将 收集 的 数据 通过 

汇集 到 指定 的 

3. Flume 采用 三 层 架 构 , 分 别 为 和 ,每 一 层 均 可 以 水 平 
扩展 。 

4. Flume 的 负载 均衡 接收 器 处 理 器 支持 使 用 和 机 制 进行 流量 分 配 ， 
其 默认 选择 机 制 为  _。 

二 、 判断 题 

1. Flume Agent 是 一 个 JVM 进程 , 它 承载 着 数据 从 外 部 源流 向 下 一 个 目标 的 三 个 核 
心 组 件 是 Source、Channel 和 Sink 。 ( Y 

2. Taildir Source 用 于 观察 指定 的 文件 ,可 以 实时 监测 到 添加 到 每 个 文件 的 新 行 ,如 果 
文件 正在 写 入 新 行 , 则 此 采集 器 将 重 试 采集 它们 以 等 待 写 和 人 完成 。 ( ) 

3. Flume 采集 方案 的 名 称 、 位 置 以 及 sources、channels、sinks 参数 配置 信息 可 以 任意 
定义 。 ( ) 

4. 在 整个 数据 传输 的 过 程 中 ,Flume 将 流动 的 数据 封装 到 一 个 event (事件 ) 中 , 它 是 
Flume 内 部 数据 传输 的 基本 单元 。 ( ) 

三 、 选择 题 


下 面 说 法 错误 的 是 (多 选 )( 。 “)。 

A. 在 一 个 Agent 中 ,同一 个 Source 可 以 有 多 个 Channel 
B. 在 一 个 Agent 中 ,同一 个 Sink 可 以 有 多 个 Channel 
C. 在 一 个 Agent 中 ,同一 个 Source 只 能 有 1 个 Channel 
D. 在 一 个 Agent 中 ,同一 个 Sink 只 能 有 1 个 Channel 


四 、 简 答题 
简 述 Flume 的 工作 原理 。 
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第 9 章 
工作 流 管理 器 (Azkaban) 


学 习 目 标 
。 了解 Azkaban 的 结构 。 


。 掌握 Azkaban 的 部 署 。 
。 熟悉 Azkaban 的 基本 使 用 。 


无 论 是 在 业务 开发 还 是 在 大 数据 开发 中 ,工作 流 管理 都 是 必 不 可 少 的 ,在 初期 可 以 使 用 
Linux 自 带 的 crontab 工具 来 定时 调度 任务 ,但 是 当 业 务 规模 变 大 并 且 需 要 可 视 化 监控 任务 
执行 的 时 候 ,crontab 显然 已 经 满足 不 了 需求 。 为 此 ,针对 这 种 多 任务 .可视化 调度 的 调度 管 
理 需 求 ,Apache 以 及 其 他 组 织 提 供 了 一 系列 工作 流 管理 器 。 本 章 对 这 些 涉 及 大 数据 开发 过 
程 中 的 工作 流 管理 器 进行 介绍 ,并 选取 其 中 常用 的 Azkaban 进行 详细 讲解 ,让 读者 深入 理 
解 Azkaban 的 基本 使 用 。 


9.1 工作 流 管理 器 概述 


9.1.1 工作 流 调度 系统 背景 


一 个 完整 的 数据 分 析 系 统 ( 业 务 系统 ) 通 常 都 是 由 大 量 任务 单元 组 成 ,如 Shell 脚本 程 
序 Java 程序 .MapReduce 程序 和 Hive 脚本 等 。 各 任务 单元 之 间 存 在 时 间 先 后 及 依赖 关 
系 ,为 了 将 这 复杂 的 执行 计划 组 织 起 来 ,需要 一 个 工作 流 调度 系统 来 调度 执行 。 在 没有 工作 
流 管理 器 之 前 ,可 以 使 用 Linux 自 带 的 crontab 工具 来 定时 调度 任务 ,但 是 它 存 在 如 下 几 个 
问题 。 

(1) 大 量 的 crontab 任务 需要 管理 ; 

(2) 任务 没有 按时 执行 ,各 种 原因 失败 ,需要 重 试 ; 

(3) 多 服务 器 环境 下 ,crontab 分 散在 很 多 集群 上 .查看 日 志 就 很 费时 间 。 

正 是 由 于 上 述 需 求 以 及 crontab 的 功能 不 足 , 为 了 更 好 地 管理 和 组 织 这 样 复杂 的 执行 
任务 ,就 需要 工作 流 管理 器 来 对 任务 进行 调度 执行 。 


9.1.2 常用 工作 流 管理 器 介绍 


针对 这 种 多 任务 .可视化 调度 的 调度 需求 ,Apache 以 及 其 他 组 织 提 供 了 一 系列 工作 流 
管理 器 ,包括 Oozie、Azkaban、Zeus、Dagobah、Luigi、Pinball 和 Airflow 等 。 
接 下 来 ,就 选取 其 中 常用 的 、 知 名 的 工作 流 管理 器 进行 简单 介绍 。 
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1. Oozie 


Oozie 是 Apache 旗下 的 用 于 管理 Hadoop 任务 的 工作 流 / 协 调 系 统 。Oozie 工作 流 中 
拥有 多 个 Action, 如 Hadoop Map/Reduce job 和 Hadoop Pig job 等 ,所 有 的 Action 以 有 向 
无 环 图 (Direct Acyclic Graph,DAG) 的 模式 部 署 运 行 。 

Oozie 工作 流 管理 器 的 优点 是 与 Hadoop 生态 圈 紧 密 结合 ,提供 了 诸多 配置 和 功能 ,可 
以 很 好 地 实现 Hadoop 工作 任务 管理 ;缺点 是 Oozie 通过 大 量 的 XML 文件 来 定义 DAG 依 
赖 ,导致 了 Oozie 的 功能 和 配置 过 于 复杂 ,维护 成 本 较 高 , 且 不 易 二 次 开发 。 


2. Azkaban 


Azkaban 是 由 LinkedIn 公司 开源 的 一 个 批量 工作 流 任务 调度 器 ,用 于 在 一 个 工作 流 内 
以 一 个 特定 的 顺序 运行 一 组 工作 和 流程 。Azkaban 定义 了 一 种 KV 文件 格式 来 建立 任务 之 
间 的 依赖 关系 ,并 提供 一 个 易于 使 用 的 UI 维护 和 跟踪 工作 流 。 

Azkaban 也 属于 Hadoop 生态 圈 , 它 是 通过 较为 简单 的 properties 文件 来 定义 DAG 依 
赖 的 ,同时 Azkaban 支持 可 插 拔 的 扩展 插件 ,方便 扩展 ,如 支持 pid、hive 等 。 

Azkaban 工作 流 管理 器 的 特点 是 所 有 的 任务 资源 文件 都 需要 打 成 一 个 zip 包 上 传 。 当 
资源 文件 较 大 的 时 候 不 是 太 方便 ,当然 也 可 以 进行 扩展 ,如 存放 在 HDFS 上 ,任务 实际 运行 
的 时 候 才 拉 到 本 地 。 


3. Zeus 


Zeus 是 Alibaba 开源 的 一 个 完整 的 Hadoop 的 作业 平台 ,用 于 从 Hadoop 任务 的 调试 
运行 到 生产 任务 的 周期 调度 管理 。 

Zeus 支持 任务 执行 的 整个 生命 周期 。 从 功能 上 来 说 ,包括 支持 : 

(1) Hadoop MapReduce 任务 的 调试 运行 ; 

(2) Hive 任务 的 调试 运行 ; 

(3) Shell 任务 的 运行 ; 

(4) Hive 元 数据 的 可 视 化 查询 与 数据 预览 ; 

(5) Hadoop 任务 的 自动 调度 ; 

(6) 完整 的 文档 管理 。 

需要 说 明 的 是 Zeus 是 针对 Hadoop 集群 任务 定制 的 ,通用 性 不 强 。Zeus 在 Github 上 
线 时 受到 青睐 ,但 是 由 于 长 期 缺乏 维护 更 新 ,时 隔 两 年 ,依然 仅 支 持 Hadoop 1. x 版 本 ,后 期 
的 Zeus 版 本 也 不 再 开源 了 。 


9.2 ” Azkaban 概述 


通过 前 面 的 学 习 , 已 经 对 工作 流 管理 器 产生 的 背景 以 及 常用 工作 流 管理 器 有 了 一 定 的 
了 解 。 相 对 于 Apache Oozie 工作 流 管理 器 . Azkaban 的 功能 可 能 不 是 那么 完善 ,但 是 
Azkaban 的 使 用 和 配置 相对 简单 , 且 易 于 二 次 开发 ,所 以 对 于 工作 调度 功能 要 求 不 是 很 高 的 
开发 者 来 说 ,使 用 Azkaban 工作 流 管理 器 显然 更 加 合适 , 接 下 来 本 节 就 对 Azkaban 进行 更 
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详细 的 讲解 。 
9.2.1 Azkaban 特点 


Azkaban 是 LinkedIn 公司 创建 的 批 处 理工 作 流 作业 调度 程序 ,用 于 运行 Hadoop 作 
业 。Azkaban 通过 作业 依赖 性 解决 业务 调度 顺序 ,并 提供 易于 使 用 的 UI 来 维护 和 跟踪 工 
作 流 程 ,其 主要 特点 如 下 。 

(1) 兼容 任何 版 本 的 Hadoop; 

(2) 易于 使 用 的 Web UI; 

(3) 简单 的 Web 和 HTTP 工作 流 上 传 ; 

(4) 支持 工作 流 定时 调度 ; 

(5) 支持 模块 化 和 可 插入 ; 

(6) 支持 身份 验证 和 授权 ; 

(7) 支持 用 户 操作 跟踪 ; 

(8) 提供 有 关 失 败 和 成 功 的 电子 邮件 提醒 ; 

(9) 提供 SLA 警报 和 自动 查 杀 功能 。 

上 面 介 绍 了 Azkaban 的 主要 特点 ,在 后 续 学 习 和 实际 开发 中 ,读者 就 会 体验 到 这 些 功 
能 特色 ,这 里 就 不 再 详细 说 明了 。 


9.2.2” Azkaban 组 成 结构 


Azkaban 工作 流 管理 器 由 3 个 核心 部 分 组 成 ,具体 如 下 。 
(1) Relational Database( 关 系数 据 库 MySQL); 

(2) AzkabanWebServer(Web 服务 器 ); 

(3) AzkabanExecutorServer( 执 行 服务 器 ) 。 

这 3 个 核心 部 分 的 关联 关系 如 图 9-1 所 示 。 


Azkaban Azkaban 


Web Server ni Executor Server 


MySQI 


图 9-1 Azkaban 核心 部 分 关系 图 
接 下 来 ,就 分 别 对 Azkaban 工作 流 管理 器 中 的 3 个 核心 部 分 进行 说 明 。 
1. Relational Database(MySQL) 


Azkaban 通常 使 用 MySQL 关系 数据 库 进行 数据 存储 , AzkabanWebServer 和 
AzkabanExecutorServer 都 会 访问 该 关系 数据 库 。 


2. AzkabanWebServer 


AzkabanWebServer 是 所 有 Azkaban 的 主要 管理 者 . 它 用 于 处 理 项 目 管理 身份 验证 、 
调度 程序 和 执行 监视 ,同时 还 可 以 用 作 UI。 
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3. AzkabanExecutorServer 


AzkabanExecutorServer 主要 用 于 处 理工 作 流 和 jobs 作业 任务 的 实际 执行 。 在 最 初 的 
Azkaban 版 本 中 ,AzkabanWebServer 和 AzkabanExecutorServer 是 自动 部 署 在 同一 服务 器 
中 的 ,后 来 由 于 功能 需求 和 扩展 ,将 Executor 分 成 了 自己 独立 的 服务 器 。 


9.2.3 Azkaban 部 署 模式 


作为 Hadoop 生态 圈 的 一 部 分 , 随 着 大 数据 开发 的 普及 以 及 工作 流 管理 器 的 需求 ， 
Azkaban 也 受到 了 越 来 越 多 开发 者 的 使 用 ,因此 Azkaban 版 本 也 在 持续 更 新 .改进 中 。 在 
本 书 的 编写 过 程 中 ,Azkaban 已 经 更 新 到 了 3. x 版 本 ,最 新 的 为 Azkaban 3. 50. 0, 本 书 也 将 
使 用 最 新 的 Azkaban 3. 50. 0 来 讲解 Azkaban 安装 和 使 用 。 

在 3.x 版 本 中 ,Azkaban 提供 3 种 部 署 模式 : 轻 量 级 的 solo server mode( 独 立 服务 器 模 
式 ) .重量 级 的 two server mode( 双 服务 器 模式 ) 和 distributed multiple-executor mode( 分 布 
式 多 执行 器 模式 ) 。 接 下 来 ,针对 这 3 种 部 署 模式 进行 简要 说 明 ,具体 如 下 。 


1. solo server mode 


在 独立 服务 器 模式 下 ,使 用 的 数据 库 是 内 嵌 的 H2, 并 且 Web Server(Web 服务 器 ) 和 
Executor Server( 执 行 服务 器 ) 都 在 同一 进程 中 运行 。 如 果 只 想 尝试 一 下 Azkaban 的 使 用 ， 
或 者 是 很 小 规模 的 测试 使 用 ,这 种 部 署 模式 还 是 可 行 的 。 


2. two server mode 


双 服 务 器 模式 适用 于 比较 复杂 的 生产 环境 , 它 的 数据 库 会 由 具有 主 从 设置 的 MySQL 
实例 提供 支持 。 其 中 ,Web 服务 器 和 执行 服务 器 应 在 不 同 的 进程 中 运行 ,以 便 升级 和 维护 
过 程 中 不 影响 用 户 。 


3. distributed multiple-executor mode 


分 布 式 多 执行 器 模式 适用 于 特别 复杂 的 生产 环境 , 它 的 数据 库 同样 应 该 由 具有 主 从 设 
置 的 MySQL 实例 支持 。 理 想 情 况 下 ,Web 服务 器 和 执行 服务 器 应 在 不 同 的 主机 中 运行 ， 
以 便 升级 和 维护 不 影响 用 户 。 这 种 分 布 式 多 主机 设置 的 模式 为 Azkaban 带 来 了 强大 且 可 
扩展 的 性 能 。 

上 面 对 Azkaban 3. x 版 本 中 提供 的 3 种 部 署 模式 进行 了 介绍 ,在 实际 开发 中 ,更 多 接触 
使 用 、 使 用 部 署 也 较为 方便 的 则 是 第 二 种 部 署 模 式 一 一 two server mode, 所 以 在 接 下 来 的 
章节 中 ,将 对 该 种 部 署 模式 进行 详细 讲解 ,其 他 模式 的 部 署 方式 可 以 参考 官网 文档 ,具体 地 
址 为 https://azkaban. github. io/azkaban/docs/latest/。 

小 提示 : 在 9. 2. 3 节 讲解 Azkaban 部 署 模式 时 , 提 到 了 不 同 模式 下 使 用 的 数据 库 , 分 别 
有 H2 和 MySQL。 需 要 说 明 的 是 ,H2 是 Azkaban 内 识 的 数据 库 , 推 荐 在 solo server mode 
下 使 用 ;而 MySQL 是 Azkaban 到 目前 为 止 支持 的 唯一 外 部 数据 库 , 也 更 推荐 在 two server 
mode 和 distributed multiple-executor mode 下 使 用 。 关 于 其 他 类 型 的 数据 库 , 最 新 的 官网 
声明 中 已 经 说 明 还 在 持续 探讨 和 研发 中 ,以 后 的 版 本 中 预计 将 会 支持 更 多 的 数据 库 。 


209 


210 


Hadoop 大 数据 技术 原理 与 应 用 


9.3 Azkaban 部 署 


通过 前 面 的 学 习 , 已 经 对 Azkaban 有 了 一 定 的 认识 ,并 且 知道 了 Azkaban 的 部 署 模式 。 
接 下 来 ,本 节 就 使 用 双 服 务 器 模式 针对 Azkaban 的 安装 部 署 进行 详细 的 讲解 。 


9.3.1 Azkaban 资源 准备 


不 同 于 其 他 软件 ,Azkaban 官方 并 没有 提供 Linux 系统 的 编译 安装 包 , 这 个 完全 需要 读 
者 自己 根据 需求 在 官网 选择 指定 版 本 的 Azkaban 源 文件 ,然后 进行 编译 打包 。 所 以 ,在 进 
行 Azkaban 安装 配置 之 前 ,必须 根据 需要 选择 指定 的 版 本 进行 下 载 并 编译 。 

需要 说 明 的 是 ,Azkaban 编译 构建 需要 使 用 Gradle 工具 (Linux 下 运行 Gradle 包装 器 
指令 gradlew 时 会 自动 下 载 ) ,并且 Azkaban 3. x 需要 Java 8 或 更 高 版 本 。 

接 下 来 ,就 选取 最 新 版 本 的 Azkaban 3. 50.0, 在 之 前 搭建 的 hadoop01 机 器 上 (因为 该 
机 器 属于 Linux 系统 ,并 且 前 面 学 习 过 程 中 已 经 安装 过 JDK 1. 8, 满 足 Azkaban 3. x 的 编译 
需求 ) 来 演示 如 何 进行 Azkaban 资源 准备 工作 。 


1. 下 载 Azkaban 源 文 件 


Azkaban 最 新 源 文件 地 址 为 https://github. com/azkaban/azkaban, 读 者 可 以 使 用 Git 
工具 拉 取 或 者 直接 下 载 zip 压缩 包 。 同 样 ,也 可 以 通过 Azkaban 提供 的 最 近 所 有 版 本 源 文 
件 地 址 https://github. com/azkaban/azkaban/releases 来 获取 指定 版 本 的 源 文 件 压缩 包 。 

这 里 ,选择 打开 https://github. com/azkaban/azkaban/releases 进行 源 文件 压缩 包 下 
载 ,效果 如 图 9-2 所 示 。 


【人 人) @ ctnub me ug | httpsy/github com/akaban/azkaban/relesses | ®®# /| 阅 自 味 会 少 多 | 三 
Since Jul19 2018 i Show 2 newer aos 目 


Release 


BR jakhani released thi Jul 10, 2018 . 21 commits to master since this release 


© 4198ec6 


Assets 


四 Source code (ip) 


四 Source code (taraz 


4798ecé Enable project uploading from restli endpoint schedule fow trigger (#1813) 
559537 POC for conditional workflow design. Condition on runtime parameters (#1825) | 
e256582 code coverage initiative (#1830) 

cardf9s Fix flaky test force_shutdown_after timeout (#1844) 

49b22d Add a testto run a v2 flow file with the new DAG engine (#1840) 


图 9-2 Azkaban 3. 50.0 源 文件 下 载 
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从 图 9-2 可 以 看 出 ,Azkaban 的 最 新 版 本 为 3. 50.0, 后 续 学 习 过 程 中 也 将 使 用 该 版 本 进 
行 演示 说 明 。 接 着 ,可 以 选择 下 载 Linux 系统 下 的 源 代码 的 tar. gz 压缩 包 。 下 载 成 功 后 ， 
将 会 得 到 一 个 azkaban-3. 50. 0. tar. gz 文件。 


2. Azkaban 源 文 件 编译 


将 下 载 后 的 Azkaban 源 文 件 压缩 包 azkaban-3. 50. 0. tar. gz 上 传 到 hadoop01 机 器 上 
的 /export/software 目录 下 ,然后 对 该 源 文件 进行 解压 ,具体 指令 如 下 。 


$ tar -zxvf azkaban- 3.50.0.tar.gz 


执行 上 述 指令 后 ,进入 解压 后 的 azkaban-3. 50. 0 文件 夹 目 录 , 接 着 直接 使 用 如 下 指令 
对 Azkaban 源 文件 进行 编译 (注意 ,编译 过 程 中 可 能 需要 Git 工具 下 载 相关 文件 ,CentOS 上 
可 以 使 用 yum -y install git 指令 安装 Git) 。 


5 ./gradlew build -x test 


上 述 指令 会 跳 过 Azkaban 源 文件 的 测试 类 部 分 进行 自动 编译 构建 (使 用 . /gradlew 
build 指令 会 对 整个 源 文件 全 部 进行 编译 ) ,整个 过 程 需要 联网 ,如 果 网 络 不 好 会 非常 耗 时 ， 
连接 中 断 时 需要 多 次 重 试 。 

执行 上 述 指令 进行 编译 ,经 过 一 段 时 间 后 必须 看 到 “BUILD SUCCESSFUL” 信 息 才 可 
确定 Azkaban 源 文 件 编译 成 功 ,效果 如 图 9-3 所 示 。 

[ 必 bzltlasecm ES 


文件 (篇 句 (E) 查看 (V) 选项 (O) ”传输 (D 县 本 (S) 工具 (D 。 帮助 (H) 
EEISEE ET Y Tip 


source-at-ur TBT, 
19:40:34..925 [DEBUG] [org.gradle. Gache, incernal, DefaultrileL ockwanager] Resasinglock, on artifacs cache ¢/ 
:929 [DEBUG] [org. gradle. Tauncher. daemon.server. exec.ExecuteBuild] The daemon has finished executin 

DeBUG] [org. gradle. 1auncher. daemon. client. DaemonC1ientInputForwarder] Dispatching close input 


4 ,952 [DEBUG] [org.gradle. launcher. daemon. client.DaemonclientConnection] thread 17: dispatching clas 
19:40;34.955 [pfuc] [org: gradle. Tauncher. daenon: client: Daenonc1ient] Received result success[valuesnull]f 
65-a37e-67373e5b3c5c port:45846, addresses:[/0:0:0:0:0:0:0:1, /127.0.0.1]], state=Busy, lastBusy=1533036656 
7df -eb3514f73daa, javahome=/export/servers/jdk, daemonRegistryDir=/root). gradle/daemon, pid=2559, 1dleTimeout= 
024m, -Dfile. encoding=UTF-8, -Duser. country=CN, -Duser. language=zh, -Duser. variant]} (buiid should'be done). 
19:40:34.955 [DEBUG] [org.gradle. launcher. daemon.client.DaemonCiientConnection] thread 1: dispatching class 
19:40:34. 961 [DEBUG] [org.gradle. launcher. daemon. client. Daemonc1lientconnection] thread 1: connection stop 
broos hadoopol zkaban3. 50:0]¢ /gradlew build 3x test, 

Parallel execution with configuration on demand 1s an incubating feature. 


> Task :azkaban-web-server :npm_install 
added 39 packages in 1.14s 


in 6s 
rT executed, 57 up-to-date 


5 OTD ks: 6 
[root@hadoopO1 azkaban-3.50.0]# a 


就 结 ssh2: AES-256-CTR 22, 33 24 行 ,107 列 VT100 ”大写 数字 


图 9-3 ”Azkaban 编译 效果 


3. Azkaban 安装 包 获取 


Azkaban 源 文件 编译 成 功 后 ,会 在 解压 目录 下 各 自 azkaban-* /build/distributions 目 
录 下 生成 基于 Windows 和 Linux 的 安装 包 文件 。 这 里 以 azkaban-exec-server 执行 器 项 目 
为 例 进行 演示 查看 ,在 Azkaban 解压 目录 下 ,进入 azkaban-exec-server/build/distributions 
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目录 查看 ,效果 如 图 9-4 所 示 。 


Em 
测 居 加 习 交 | 导 权 的 | 品 号 马 | 林 和 涛 9 1 昌国 旧 


| 192.168.121.134 


coal 
{readoopor ser Tburions I 1 


用 量 30764 


Te 1 Foor roog 137499657 7 3 18:47 azkaban_exec -Server -0-1. 0-SNAPSHOT. Tar .gz 
oot 15752995 7 月 31 18:47|azkaban-exec-server-0.1.0-SNAPSHOT. Zi 


| trooranadoopd" str ?burtonsis 


ssh2: AES-256-CTR 。 6，32 9 行 , 92 列 VT100 大写 数字 


图 9-4 ”Azkaban 编译 安装 包 


在 后 续 Azkaban 安装 配置 过 程 中 ,只 需要 解压 包 下 azkaban-db、azkaban-exec-server、 
azkaban-web-server 和 azkaban-solo-server 文件 内 的 安装 包 即 可 。 

注意 ,Azkaban 源 文件 的 编译 过 程 需 要 较 好 的 网 络 环境 ,并 且 较 为 耗 时 ,所 以 本 教材 资 
源 中 会 提供 已 经 编译 好 的 Azkaban 3. 50. 0 版 本 的 安装 包 文 件 。 


9.3.2 Azkaban 安装 配置 


在 准备 好 Azkaban 安装 包 后 ,就 可 以 正式 进行 Azkaban 的 安装 配置 了 。 接 下 来 ,为 了 
后 续 安装 后 的 Azkaban 方便 调用 Hive, 本 节 仍 在 当前 hadoop01 机 器 上 针对 Azkaban 的 安 
装配 置 进行 详细 的 讲解 ,具体 步骤 如 下 。 


1. MySQL 安装 配置 


在 前 面 介绍 Azkaban 的 部 署 模式 时 ,已 经 讲解 了 双 服 务 器 模式 更 推荐 使 用 MySQL 作 
为 元 数据 的 存储 库 , 所 以 安装 Azkaban 的 第 一 步 必 须 安 装 好 MySQL 数据 库 ,而 在 之 前 的 学 
习 过 程 中 hadoop01 机 器 上 已 经 安装 过 MySQL 数据 库 了 (没有 安装 MySQL 的 自行 查阅 进 
行 安装 ) ,所 以 剩 下 的 工作 就 是 进行 配置 了 。 

(1) 创建 Azkaban 数据 库 及 用 户 。 

先 在 hadoop01 机 器 上 通过 “mysql -u root -p” 指 令 连 接 到 已 安装 的 MySQL 数据 库 , 然 
后 创建 一 个 存储 Azkaban 相关 数据 的 数据 库 azkaban, 具 体 指令 如 下 。 


$ mysql -uroot -p 
mysql> CREATE, DATAEASE azkaban; 


创建 azkaban 数据 库 成 功 后 ,还 可 以 为 该 数据 库 专门 创建 和 分 配 具 有 执行 权限 的 新 用 
户 ,这 里 就 不 做 演示 说 明了 ,后 续 将 一 直 使 用 root 用 户 进行 操作 。 

另外 ,由 于 在 默认 配置 下 ,MySQL 会 根据 配置 文件 限制 接收 数据 包 的 大 小 , 则 可 以 通 
过 配置 属性 max_allowed_packet, 将 允许 数据 包 大 小 设置 为 更 高 的 值 ,如 1024MB。 这 里 以 
Linux 系统 为 例 ,在 hadoop01 机 器 上 ,克隆 一 个 会 话 窗口 ,编辑 /etc/my. cnf 文件 ,在 该 文件 
中 添加 max_allowed_packet 属性 来 设置 大 小 ,效果 如 图 9-5 所 示 。 

执行 上 述 配 置 后 ,必须 使 用 “sudo /sbin/service mysqld restart” 指 令 重 启 MySQL 
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192168121134 GD - 


文 作曲” 编 各 日， 查看 M)， 选项 O) 传 纺 ] 朋 本 S) 工具 (]。 大 动 H 
涪 习 名 习 交 | 忆 可 金品 写 纪要 党 和 加 加 中 


| | 168,121 140) 


ys 
tadirs/var (Nib/nysg 

Sockec/ver/ NG Vmysq1.sock 

oer my 

515 到 09 symbolic-1inks 证 recommended to prevent assorted security risks 
be i 


max_allowed_packet=1024M 
Tmysq1d_safe] 


foyerrors/Var/10g/nysq1d. 1 
eo i pid 


就 结 ssh2: AES-256-CTR 8,，25 21 行 ,112 列 VT100 大写 数字 


图 9-5 MySQL 数据 库 允 许 数据 包 大 小 设置 


服务 。 
(2) Azkaban 数据 库 表 初始 化 。 


完成 上 述 MySQL 的 安装 配置 以 后 , 接 下 来 ,就 需要 使 用 前 面 编译 生成 的 db 脚本 文件 


对 azkaban 数据 库 表 进行 初始 化 。 


先 对 9. 3. 1 节 编 译 生成 的 azkaban-db-0. 1. 0-SNAPSHOT. tar. gz 文件 进行 解压 (所 有 
编译 的 压缩 文件 均 在 源 文 件 解压 包 下 的 azkaban-* /build/distributions 目录 中 ); 然 后 进入 
解压 后 的 目录 ,在 该 解压 目录 下 有 一 个 create-all-sql- *. sql 的 脚本 执行 文件 ,通过 该 文件 可 
以 对 所 有 的 sql 脚本 文件 进行 azkaban 数据 库 初 始 化 .其 具体 效果 如 图 9-6 所 示 。 


图 192.168.121.134 (1) - SecureCRT 
文件 (。 篇章 (E) 查看 (V) 远 项 (0) 传输 (D) 脖 本 (S) 工具 (0 。 帮助 (H) 
TT 


1 192168,121.134 (1) 


11 01:55 create.active_executing flows. sql 
11 01:55 create.acti 1 


355 
:55 create. executionLf1 
:55 create. execution jobs. sq 
:55 create. execution_1ogs. sq] 

55 create. executor_events. sql 

:55 create. executors.sql 

:55 create. project_events. sgl 

53 create. projecrfiles:9 

:55 create. project_flow_ files. sql 
:55 create. project_flows.sgl 

:55 create. project_permissions. sgl 
:55 create. project_properties. sq 
:55 create. projects. sq 

:55 create. project_versions. sql 
;55 create. properties. sq1 

:55 create. quartz-tables-all1. sql 
:55 create. triggers. sql 

:55 database. properties 

:55 upgrade. 3.20.0.to.3.22.0.sql 
rw 1 root root 607 7 月 11 Ol:55 upgrade.3.43.0.to.3.44.0.sql 
[roorehadoopOL azkaban-db-0.1.0-SNAPSHOT]# 国 


a | 


Ell 
~ 
mn: 


就 由 ssh2: AES-256-CTR 26, 44 26 行 112 列 _VT100 ”大写 数字 


上 


图 9-6 ”azkaban 数据 库 初 始 化 脚本 文件 


接着 ,进入 之 前 创建 的 azkaban 数据 库 , 使 用 source 命令 导入 create-all-sql- * . sql 数据 


库 初 始 化 脚本 文件 ,具体 指令 如 下 。 


azkaban- db- 0.1.0- SNRPSHOTVcreate all- sql— 0.1.0- SNRPSHOT.sql 
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上 述 指令 中 ,source 后 是 要 导入 执行 的 create-all-sql- * . sql 数据 库 初 始 化 脚本 文件 绝 
对 路 径 , 读 者 在 执行 时 需要 根据 自身 情况 进行 修改 。 执行 完 上 述 指令 后 ,使 用 “show 
tables” 指 令 查 看 azkaban 数据 库 下 初始 化 成 功 后 的 表 , 效 果 如 图 9-7 所 示 。 
192.168.121.134 - SecureCRT [ey x 


文件 中” 编 加 (查看 V) 选 硕 (O) 传 绽 名 本 (S) 工具 (D。 帮助 (H) 
沿 习 器 习 交 | 急 区 多 | 吕 号 马 | 加 湖上 @| 国 上 


| QRTZ_SCHEDULER_STATE 
| QRTZ_SIMPLE_TRIGGERS 
MRSIMPRORE TRIGGERS 


TRIGG 
| Bese ing Flows 
| active-s1a 


| 

| 

| 

QRTZ-L oC! 1 

| WrapausED Trreesn enes | 
| 

| 

| 


| SxecutTon dependencies 
| execut1on-f1ow: 


| 
pro: 1ows 
BF8jsEE-pepgjssions 
| project-properties | 
| project=versions | 
| ESi。 
| tr 


tT oR, 
29 rows in ser (0.00 sec) 目 
mysq1> 
就 洗 ssh2: AES-256-CTR 37，8 37 行 ,106 列 VT100 ”大写 数字 

| 


图 9-7 azkaban 数据 库 初始 化 表 


2. Azkaban Web 服务 安装 配置 


完成 Azkaban 依赖 的 MySQL 元 数据 库 的 安装 和 初始 化 后 ,就 可 以 进入 双 服 务 器 模式 
的 安装 阶段 了 ,这 里 先 以 安装 Azkaban Web 服务 为 例 进行 说 明 。 

(1) SSL 创建 。 

Azkaban 使 用 SSL 套 接 字 连接 器 ,这 意味 着 必须 要 先 提供 秘 钥 库 。 接 下 来 ,就 演示 创 
建 SSL 秘 钥 库 的 步骤 。 

先 在 hadoop01 机 器 上 的 某 个 目录 下 (如 /export/software 目录 下 ) 执 行 如 下 指令 ,生成 
SSL 秘 钥 库 。 


$ keytool — keystore keystore - alias jetty - genkey — keyalg RSR 


执行 上 述 指 令 后 ,会 要 求 输入 “keystore password( 秘 钥 口 令 )”, 这 里 输入 “123456”; 接 
下 来 , 按 回 车 键 ,还 会 要 求 输入 姓名 、 组 织 、 国 家 等 ,用 户 可 自 定义 填写 或 不 填写 内 容 ;然后 在 
“is correct? (是 否 正确 )” 的 地 方 输入 *Y”, 效 果 如 图 9-8 所 示 。 

从 图 9-8 可 以 看 出 ,前 面 要 求 输入 了 keystore 的 口令 , 接 下 来 还 要 求 输 入 jetty 的 口令 ， 
这 里 同样 输入 “123456”。 

执行 完 上 述 所 有 操作 后 ,就 会 在 当前 目录 下 (/export/software) 生 成 一 个 keystore 秘 
钥 文件 。 
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Ey 所 二 E) ”天 二 (V) 远 碍 (D) 赎 鲁 (1) 基本 (S$) 工具 (大 动 (H) 
ETEE ET TE 


1 192.158.12L13+ 百 


Ee Em 

i 
Dnkriown]: 

您 多 闻 织 和 位 各 移 是 什么 


-Unknown，0-Unknonn，L-Unknown，ST-unknonn，C-Unknown 是 否 正确 ? 


入 <jetty> 的 韦 钼 口 冬 
和 机 条 亲密 让 时 各 < 相同， 坟 回 车): 


目 


ssh AES-256-CTR 20, 42 36 行 131 列 VT100 大 数字 


图 9-8 SSL 创建 过 程 


(2) Azkaban Web 服务 器 安装 配置 。 
将 前 面 章节 编译 好 的 Web 服务 安装 包 进行 解压 到 /export/servers/azkaban 目录 下 (如 
果 不 存在 ,需要 提前 创建 ), 具 体 指令 如 下 (在 安装 包 所 在 目录 执行 )。 


5 tar - zxvf azkaban- web- server- 0.1.0- SNAPSHOT.tar.gz \ 
一 C /export/servers/azkaban 
执行 上 述 指令 解压 web-server 后 ,只 会 在 /export/servers/azkaban/azkaban-* 目录 下 
产生 bin \lib 和 web 3 个 文件 ,而 实际 情况 下 , Azkaban 服务 需要 多 个 文件 ,具体 如 表 9-1 
所 示 。 


表 9-1 Azkaba 服务 所 需 文件 


文 件 名 说 有 明 
bin 启动 Azkaban jetty 服务 器 的 脚本 
conf Azkaban 服务 器 的 配置 
lib Azkaban 依赖 的 jar 包 
extlib 添加 到 extlib 的 其 他 jar 将 添加 到 Azkaban 的 类 路 径 中 
plugins 可 以 安装 插件 的 目录 
web Azkaban Web 服务 器 的 Web(css,javascript,image) 文 件 


从 表 9-1 可 以 看 出 ,Azkaban Web 服务 器 安装 目录 下 还 缺少 conf、extlib 和 plugins 3 个 
文件 (Azkaban 官方 提供 的 有 些 版 本 存在 这 些 文件 ), 其 中 conf 和 plugins 这 两 个 文件 可 以 
从 编译 的 azkaban-solo-server 文件 包 下 进行 解压 复制 ,而 extlib 是 一 个 空 文件 夹 ,可 自行 
创建 。 
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按照 上 述 需求 描述 和 实现 方式 ,完成 Azkaban Web 服务 器 的 解压 和 相关 文件 的 复制 
后 ,Azkaban Web 服务 器 安装 目录 的 效果 如 图 9-9 所 示 。 


图 9-9 Azkaban Web 服务 器 安装 目录 


接着 ,打开 conf 目录 下 的 azkaban. properties 配置 文件 ,主要 针对 该 模板 文件 中 的 时 
区 .MySQL 和 jetty 进行 修改 ,修改 后 的 示例 如 文件 9-1 所 示 。 
文件 9-1 azkaban. properties 
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种 


# User facing web server configuraticns used to construct the user 
# facing server URLS. They are useful when there is a reverse proxy 
# between Azkaban web servers and users. 
# encuser - >myazkabanhost:443 -> Proxy - > localhost:8081 
# when this parameters set then these parameters are used to generate 

46 # email links. 

47 # 证 these parameters are not set then jetty.hostnamey 

48 # and jetty.port (if ssl configured jetty.ssl.port) are used. 

49 # azkaban.webserver.extermal hostname=myazkabanhost.oam 

50 # azkaban.webserver.extermal ssl port= 443 

中 # azkaban.webserver.external port= 8081 

jcb.failure.email= 

jcb.success.erail= 

cache.directory cache 

# MK stats 

jetty.omnector.stats= true 

executor .onnector.stats= true 

# Azkaban plugin settings 

azkaban. jcbtype.plugin.dir= plugins/jcbtypes 


个 汶 襄 语 户 当 外 信和 匀 吕 信 人 信 入眼 名 
: 


B89 


在 文件 9-1 中 ,通过 文件 加 粗 部 分 可 以 看 出 ,主要 针对 Azkaban Web 服务 器 的 时 区 、 
MySQL 和 jetty 服务 进行 了 修改 配置 。 其 中 ,default. timezone. id 一 Asia/Shanghai 要 求 默 
认 时 区 设置 成 亚洲 /上 海 ;MySQL 配置 中 ,database. type 一 mysql 要 求 数 据 库 类 型 为 mysql 
(默认 为 H2) ,还 根据 实际 情况 配置 了 数据 库 地 址 、 名 称 .用 户 名 、 密 码 等 信息 :jetty 配置 中 ， 
jetty. use. ssl 一 true 表示 启用 了 SSL 连接 ,同时 根据 实际 SSL 安装 情况 配置 了 jetty 相关 的 
端口 号 ,密码 等 信息 。 另 外 ,在 配置 上 述 文件 属性 值 时 .后 级 不 能 有 任何 多 余 空 格 和 字符 , 否 
则 服务 启动 失败 。 

需要 注意 的 是 ,为 了 保证 Azkaban Web 服务 器 配置 文件 azkaban. properties 能 够 找到 
前 面 生成 的 keystore, 还 需要 将 生成 的 keystore 秘 钥 文件 移动 到 当前 解压 后 的 Azkaban 
Web 服务 根 目 录 下 ( 即 /export/servers/azkaban/azkaban-web-server-0. 1. 0-SNAPSHOT 
目录 下 和 

完成 Azkaban Web 服务 器 核心 文件 azkaban. properties 的 配置 后 ,还 可 以 打开 conf 目 
录 下 的 azkaban-users. xml 用 户 配 置 文件 .为 Azkaban Web 服务 器 添加 或 修改 管理 用 户 , 具 
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体 如 文件 9-2 所 示 。 
文件 9-2 azkaban-users. xml 


2 <user groups= "azkaban" password= "azkaban” 

六 Ioles= "aduin" usemane= "azkaban"/> 
4 <userpassword "metrics" roles= "metrics" usemame= "metrics"/> 

5 <user password "admin" roles= "metrics,adnin" usememe= "admin"/> 

6 <role namer "admin" pemmissicns= "AMIN"/> 

7 <role name= "metrics" pemissions= "METRICS"/> 

8 < /azkaban users> 


在 文件 9-2 中 ,默认 为 Azkaban Web 服务 器 配置 了 一 些 具有 权限 的 用 户 , 此 处 ,文件 中 
加 粗 部 分 表示 自 定义 添加 了 一 个 用 户 名 和 密码 均 为 admin 的 用 户 , 并 为 该 用 户 设置 了 
“metrics,admin” 所 有 权限 ,后 续 将 会 使 用 该 用 户 进 行 登录 和 管理 Azkaban 服务 。 

最 后 ,在 启动 Azkaban Web 服务 和 Azkaban Executor 服务 的 时 候 ,都 依赖 conf 目录 下 
的 log4j. properties 日 志文 件 用 于 日 志 输 出 ,所 以 还 需要 在 这 两 个 服务 的 conf 目录 下 编写 
配置 log4j. properties 日 志文 件 , 具 体内 容 如 文件 9-3 所 示 。 

文件 9-3 log4j. properties 


1]og 和 .rootLogger= INEO, Console 
]og4j .1ogger.azkaban= INFO, server 
1094j .appender.server.laycut= org.apache.log4 .PattemLaycut 
lo ,afpender .server.File= 1cgs/azjaben- server.10g 
1094j .appender .server. layout .CorversionPatterr= \ 
%d{yyyyMM/cd HH:mm:ss.sss 2} sp [sc{1}] [Azkaban] smn 


1094j .appender.Console. layout= org.apache.1094j .PattemIayout 
1094j .atpender.Console.layout .Conversionpatterre= \ 
Sd{yyyy/MM/d HH:mm:ss.Sss 2} sp [sc{1}] [azkaban] Srin 


BBESBEoeJonmnwNp 
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在 文件 9-3 中 ,通过 log4j. appender. server. File 一 logs/azkaban-server. log 将 服务 启动 
日 志文 件 的 存放 路 径 配置 在 了 对 应 服务 解压 目录 下 的 logs 下 的 azkaban-server. log 文件 中 
(服务 启动 后 会 自动 创建 目录 文件 ) 。 

注意 : 使 用 Azkaban 不 同 版 本 进行 编译 后 生成 的 文件 下 ,并 没有 统一 类 似 bin、web、 
lib、conf、extlib 和 plugins 文件 夹 , 这 个 需要 根据 不 同 版 本 实际 情况 进行 添加 ,并 对 conf 目 
录 下 文件 进行 配置 。 关 于 Azkaban 更 多 配置 说 明 , 读 者 还 可 以 参考 官网 文档 说 明 , 具 体 地 
址 https://azkaban. github. io/azkaban/docs/latest/ # configuration。 


3. Azkaban Executor 服务 安装 配置 


Azkaban Web 服务 器 的 安装 配置 后 ,还 需要 对 Azkaban Executor 服务 器 进行 安装 配 
置 ,其 整个 安装 配置 过 程 与 Azkaban Web 服务 器 的 安装 配置 类 似 ,具体 步骤 如 下 。 
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先 将 前 面 编译 好 的 Executor 服务 安装 包 进 行 解压 到 /export/servers/azkaban 目录 下 
(如 果 不 存在 ,需要 提前 创建 ), 具 体 指令 如 下 (在 安装 包 所 在 目录 执行 )。 


$ tar - zxvf azkaban- exec- server- 0.1.0- SNAPSHOT.tar.gz \ 
—C /export/servers/azkaban 


执行 上 述 指令 解压 exec-server 后 ,在 /export/servers/azkaban/azkaban-* 目录 下 产生 
了 bin 和 lib 两 个 文件 , 同 Web 服务 安装 包 一 样 ,还 缺少 了 conf、extlib 和 plugins 3 个 文件 
(exec 执行 器 服务 不 需要 web 文件 夹 ), 这 里 只 需要 从 前 面 已 配置 好 的 Azkaban Web 服务 
器 的 安装 文件 下 进行 复制 即 可 。 

按照 上 述 需求 描述 和 实现 方式 ,完成 Azkaban Executor 服务 器 的 解压 和 相关 文件 的 复 
制 后 ,Azkaban Executor 服务 器 安装 目录 的 效果 如 图 9-10 所 示 。 


[a 192.168.121.134 - SecureCRT [esx™) 
文件 (和 编 句 (E) ”查看 (V) 选项 (0) ” 传 边 (T) 脚本 (S) 工具 (L) 帮助 (H) 
EEISEE ET Tp 


[1 192.168.121.134 


ad50p0T 5 I- 
用 量 20 
drwxr-xr-x. 3 root root 4096 7 月 31 23:48 bin 


-Xr -Xx. ER 
drwxr-xr-x, 3 root root 4096 8 月 1 19:17 plugins 
[root@hadoop01 azkaban-exec-server-0.1.0-SNAPSHOT]# 国 


就 结 ssh2: AES-256-CTR 。 8，53 10 行 , 92 列 VT100 大写 数字 


图 9-10 ”Azkaban Executor 服务 器 安装 目录 


因为 这 里 的 conf、extlib 和 plugins 3 个 文件 夹 是 从 前 面 配 置 的 Azkaban Web 服务 下 复 
制 过 来 的 ,所 以 Azkaban Executor 服务 器 所 依赖 的 服务 配置 (如 azkaban. properties 下 的 时 
区 、MySQL 连接 配置 ,azkaban-users. xml 下 的 管理 员 配 置 以 及 log4j. properties 日 志文 件 
配置 ) 也 多 数 都 已 经 配置 完成 了 .基本 上 可 以 不 用 再 额外 进行 其 他 改动 。 

此 处 Azkaban Executor 服务 下 可 以 进行 改进 的 就 是 当前 服务 的 conf 目录 下 的 
azkaban. properties 文件 , 先 将 不 需要 的 jetty 服务 配置 移 除 ,同时 在 该 文件 中 对 Executor 
进行 编辑 设置 ,主要 修改 内 容 如 下 。 


+# Azkaban Executor settings 
+ 设置 最 大 线程 数 
executor .maxThreads= 50 

# 设置 Executor 端 口 
executor.port= 12321 

# 设置 流动 线程 数 
executor.flow.threads= 30 


至 此 ,整个 Azkaban 工作 流 管 理 器 的 安装 配置 就 已 经 完成 了 。 需 要 说 明 的 是 ,由 于 版 
本 的 不 同 , Azkaban 的 配置 方式 和 结果 可 能 略 有 不 同 .但 必须 要 根据 使 用 的 Azkaban 版 本 
为 准 , 并 且 在 后 续 部 署 后 能 够 正确 启动 访问 。 

小 提示 : 在 Azkaban 3. 义 版 本 进行 安装 配置 过 程 中 , 当 安 装配 置 好 Azkaban Web 服务 
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和 Azkaban Executor 服务 后 ,还 可 以 根据 需要 安装 配置 Azkaban 插件 。Azkaban 插件 的 设 
计 是 旨 在 使 Azkaban 的 非 核心 功能 插件 化 ,这 样 既 可 以 保证 不 同 环境 下 可 以 选择 性 地 安装 
和 升级 不 同 的 功能 ,同时 也 可 以 使 Azkaban 很 容易 扩展 到 不 同 的 系统 。 到 目前 为 止 ， 
Azkaban 已 允许 使 用 许多 不 同 的 插件 。 例 如 .在 Web 服务 器 端 ,有 viewer plugins trigger 
plugins user manager plugin 和 alerter plugins; 而 在 Executor 服务 端 ,有 JobType 
Plugins。 

由 于 在 实际 开发 中 Azkaban 插件 使 用 并 不 多 ,所 以 本 教材 就 不 对 插件 配置 进行 讲解 
了 ,有 兴趣 的 读者 可 以 查看 官网 地 址 https://azkaban. github. io/azkaban/docs/latest/ 井 
plugin-setup 进行 学 习 。 


9.3.3 Azkaban 启动 测试 


在 完成 整个 Azkaban 工作 流 管 理 器 的 安装 配置 后 , 接 下 来 就 可 以 对 Azkaban 服务 进行 
启动 测试 了 ,其 具体 实现 步骤 如 下 。 


1. 启动 Azkaban Executor 服务 


首先 进入 Azkaban Executor 服务 所 在 解压 包 目 录 下 (/export/servers/azkaban/ 


azkaban-exec-server-0. 1. 0-SNAPSHOT) ,然后 执行 以 下 指令 来 启动 Azkaban Executor 
服务 。 


$ bin/start— exec.sh 


执行 上 述 指令 启动 Azkaban Executor 服务 后 ,终端 窗口 没有 任何 响应 ,此 时 可 以 通过 
11 指令 查看 当前 目录 下 的 文件 内 容 , 如 图 9-11 所 示 。 


[图 19216s121134 -securecRT [=1®5 mE 
文件 (| 岛 (E) 查看 (V) 迁 项 (O) 传 绽 ) 部 本 (S) 工具 (帮助 (H) 
沽 居 器 引 况 | 名 区 的 | 局 号 马 | 困 庆生 1@| 国 肯 


1 192.168.121.134 


2Kaban- exec Ser ver SNXPSHOTT7 
ssehadoopo 2kaban- exec-server -0:1. 0-3NAPSHOT]# 71 


rw xr -x 3 root root 4096 7 月 对 33:48 bin 
drwxr 2 Foo oo 4005 8 有 1 23:42. Con 
1 root root 1 33:00 currentpid 
3 root root a09s 8 有 
1 root root 5738 8 月 3:00 2015-08-01+23:00:30. 0ut 


drwxr -xr-x，2 root root 4096 8 月 
[root@hadoopo1 azkaban-exec-server- 


国 


就 绪 ssh2: AES-256-CTR 15,53 22 行 ,103 列 VT100 ”大写 数字 


图 9-11 Azkaban Executor 服务 器 安装 目录 


从 图 9-11 可 以 看 出 ,与 开始 安装 成 功 的 Azkaban Executor 服务 目录 对 比 ,启动 一 次 后 的 
目录 下 已 经 增加 了 多 个 文件 ,其 中 最 主要 的 是 executorServerLog _* . out 日 志文 件 和 logs 目 
录 下 的 日 志文 件 ,通过 这 两 个 日 志文 件 都 可 以 查看 Azkaban Executor 服务 器 的 启动 情况 。 
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关于 executorServerLog__* .onut 日 志文 件 和 logs 目录 下 的 日 志文 件 的 主要 区 别 是 ， 
Azkaban Executor 服务 每 启动 一 次 (不 论 成 功 与 否 ), 都 会 新 生成 一 个 带 有 日 期 的 
executorServerLog__* .out 日 志文 件 来 记录 当前 启动 过 程 的 日 志 信息 ,并 且 这 个 日 志文 件 
是 Azkaban 内 部 自 带 生成 的 ;而 Azkaban Executor 服务 不 论 启动 多 少 次 (不 论 成 功 与 否 )， 
都 只 会 在 logs 目录 下 生成 一 个 日 志文 件 , 然 后 每 新 启动 一 次 服务 都 会 将 之 前 的 日 志文 件 清 
除 再 重新 写 和 人 新 的 日 志 信 息 ,并 且 这 个 日 志文 件 路 径 和 名 称 是 由 开发 者 配置 的 log4j 
. properties 决定 的 。 

接着 ,就 通过 查看 logs 目录 下 生成 的 日 志文 件 来 查看 Azkaban Executor 服务 的 启动 情 
况 , 效 果 如 图 9-12 所 示 。 
国 192168121134 SeeureCRT I | 


HN WV) IO) (iW(T) #5) IRID tt(H) 
说 因 同 习习 | 名 风 先 | 号 号 忆 | 守 敌 9 昌国 朋 


| 192 159,12L 1 


ee 


on 
Poetsenab lea Ctr od, Porat fC ene dr raedoA1 Swear 0 CheedfarRe di recs2AT meat fsoe uh ome ear ?ona 
east Scones mm, Prosypr of err odiet he Poses mu TN comeet orae du Treode=3008 ,Come ctf Fanou eso0» seroT ooost 
opeal Ibactnequer waker] ferkaban] 3oneFd three peo 528:,20 
reg [i 和 Pop "528s Socapp. ovent. cbcallbacknequestaaker is completed 
本 I aT zat ton eonpleted aa exechbo. evert obeal Dac ianaer 
9be 31 1b ln er [Ba Ne Radoopst 
cg Es 
akan Ene vt or Server] (Aka wertyserver regtstered, 
SabanExe ut or Sor ve SE pt oY mr An nor register ed. 
AZKAbAn Exe Cut Or Ser, kab] Dean zabn- Cuec Abb. jex. mJ olearmanag eg "rer? arer ee 
AakabanExe cutor Ser Ver MAakaban] ean szkaba Je Im oe Da pegse area 
tbanese utor sor ver| HSkaban end sor Chess was found 
‘+0600 INFO [AzkabanExecutor Server] Azkaban 
O18/08/01 23:17:51,037 +0800 INFO (Azkabanexecutorserver] [Azkaban] 国 


[ws dhz AES-756.CTR_21, 1 _ 227149M VT100 A my 


图 9-12 ”Azkaban Executor 服务 启动 日 志 


从 图 9-12 可 以 看 出 ,Azkaban Executor 服务 已 经 启动 成 功 ,日 志 显 示 Executor 服务 启 
动 在 hadoop01 机 器 的 12321 端口 ,这 与 配置 文件 相对 应 。 

如 果 在 启动 过 程 中 出 现 错误 ,读者 就 可 以 通过 日 志 信息 进行 查看 ,对 错误 信息 进行 修 
改 , 然 后 重新 启动 服务 进行 测试 。 当 需要 关闭 Executor 服务 时 ,可 以 执行 如 下 指令 。 


$ bin/shutdown- exec.sh 


2. 启动 Azkaban Web 服务 


在 确保 Azkaban Executor 服务 启动 成 功 的 前 提 下 ,然后 进入 Azkaban Web 服务 所 在 
解压 包 目 录 下 (/export/servers/azkaban/azkaban-web-server-0. 1. 0-SNAPSHOT) ,然后 执 
行 以 下 指令 来 启动 Azkaban Web 服务 。 


$ bin/start— web.sh 


执行 上 述 指令 启动 Azkaban Web 服务 后 ,终端 窗口 没有 任何 响应 ,此 时 可 以 通过 11 指 
令 查 看 当前 目录 下 的 文件 内 容 , 会 发 现 Web 服务 目录 下 同样 添加 了 许多 文件 ,包括 两 个 重 
要 的 日 志文 件 (webServerLog_* . out 日 志文 件 和 logs 目录 下 的 日 志文 件 ) 。 

接着 ,就 通过 查看 logs 目录 下 生成 的 日 志文 件 来 查看 Azkaban Web 服务 的 启动 情况 
效果 如 图 9-13 所 示 。 
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ER IE， | 
文件 月” 归 午 {可 者 VW) 运 驶 [DO) 传 苇 站) 时 相 5) 工 RUU 天 动 (H) 
同型 疝 | 急 风 的 号 号 本 | 可 笋 9 | 号 避 量 
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aban] cleaning 
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说 ssh2 AES-256-CTR 19，1 20f7140 列 VT100 大 本 数 闻 


图 9-13 ” Azkaban Web 服务 启动 日 志 


从 图 9-13 可 以 看 出 , Azkaban Web 服务 已 经 启动 成 功 ,而 启动 的 端口 号 则 需要 根据 
Web 服务 下 是 否 开启 SSL 访问 及 相关 端口 号 来 决定 。 

同样 ,如 果 在 启动 过 程 中 出 现 错误 ,读者 就 可 以 通过 日 志 信 息 进行 查看 ,对 错误 信息 进 
行 修改 ,然后 停止 服务 再 次 启动 服务 进行 测试 。 关 闭 Web 服务 的 指令 如 下 。 


$ bin/shutdown- wsb.sh 


当 Azkaban Executor 和 Azkaban Web 服务 都 启动 成 功 后 ,还 可 以 在 终端 窗口 通过 jps 
指令 查看 对 应 的 服务 进程 来 判断 服务 是 否 正常 启动 。 


3. 访问 Azkaban UI 


当 Azkaban Executor 和 Azkaban Web 服务 都 启动 成 功 后 , 接 下 来 就 通过 UI 访问 
Azkaban 服务 ,来 查看 Azkaban 工作 流 管理 器 的 UI 效果 ,同时 进一步 验证 Azkaban 的 安装 
启动 情况 。 

需要 注意 的 是 ,如 果 在 配置 Azkaban Web 下 的 azkaban. properties 时 ,没有 启用 SSL 
( 即 jetty. use. ssl 二 false), 则 可 以 通过 地 址 http://hadoop01:8081 来 访问 Azkaban 服务 。 
这 里 的 IP 地 址 就 是 Azkaban 服务 启动 的 地 址 ,而 8081 就 是 azkaban. properties 中 默认 指 
定 配置 的 jetty. port 王 8081。 而 在 前 面 的 安装 配置 过 程 中 ,已 经 启用 了 SSL, 所 以 此 次 访问 
地 址 为 https://hadoop01:8443, 其 中 8443 是 azkaban. properties 中 指定 配置 的 jetty. ssl. 
port 一 8443 。 

此 次 ,以 Firefox 火狐 浏览 器 为 例 , 首 次 输入 并 访问 https://192. 168. 121. 134:8443 查 
看 ,效果 如 图 9-14 所 示 。 

从 图 9-14 可 以 看 出 ,首次 访问 https 地 址 时 会 出 现 警 告 ,需要 添加 例外 。 选 择 “ 我 已 充 
分 了 解 可 能 的 风险 ”选项 ,并 单 击 “ 添 加 例外 ”按钮 .为 此 次 访问 地 址 添加 例外 即 可 。 

添加 例外 地 址 后 就 会 跳 转 到 Azkaban 的 UI 登录 界面 ,效果 如 图 9-15 所 示 。 

在 图 9-15 所 示 的 登录 界面 中 ,输入 azkaban-users. xml 用 户 配 置 文件 下 的 用 户 名 和 密 
码 即 可 成 功 登录 ,这 里 选择 使 用 admin 进行 登录 ,登录 成 功 后 效果 如 图 9-16 所 示 。 

至 此 ,Azkaban 工作 流 管理 器 的 安装 配置 和 启动 测试 的 讲解 都 已 经 完成 了 ,在 后 续 的 小 
节 中 ,将 会 通过 案例 来 演示 Azkaban 工作 流 管理 器 的 具体 使 用 。 
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鲍 和 和 任 的 连接 \+ 


所 图 https://192.168.121.134:8443 


此 连接 不 受信 任 


您 想 使 用 Firefox 安全 连接 至 192.168.121.134:8443 ， 但 是 我 们 无 法 确认 此 连接 是 否 安全 , 


党 . 当 您 尝试 安全 连接 时 ， 站 点 会 出 示 受 信任 的 凭据 ， 以 证 明 您 访问 的 是 正确 的 位 杆 ， 络 而 现在 , 此 
网 站 的 身份 无 法 核实 。 


怎么 办 ? 


如 果 您 过 去 兽 连 接 到 此 网 站 目 没有 遇 到 该 问题 ， 那么 此 错误 表示 可 能 有 人 试图 冒充 该 网 站 ， 因 此 您 应 该 
停止 浏览 . 
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图 9-14 Azkaban UI 
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图 9-16” Azkaban UI 首页 界面 
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9.4 Azkaban 使 用 


通过 前 面 的 学 习 , 相 信 读 者 对 Azkaban 有 了 一 定 的 认识 ,并 且 已 经 完成 了 Azkaban 的 
部 署 。 接 下 来 ,本 节 就 针对 Azkaban 的 基本 使 用 进行 详细 讲解 。 


9.4.1 Azkaban 工作 流 相 关 概 念 


Azkaban 本 质 是 一 个 工作 流 管 理 器 ,用 于 对 jobs 工作 任务 的 调度 管理 。 在 使 用 
Azkaban 时 会 涉及 一 些 常用 的 概念 ,本 节 就 对 这 些 常用 概念 进行 解释 说 明 。 


1. job 任务 


Azkaban 是 对 job 进行 调度 管理 的 ,而 每 一 个 job 任务 都 是 编写 在 一 个 后 缀 名 为 . job 
的 文本 文件 中 ,在 该 job 文件 中 还 可 以 定义 job 任务 类 型 .将 要 运行 的 任务 、 依 赖 的 其 他 job 
以 及 job 运行 需要 的 相关 参数 。 单 个 job 任务 定义 的 示例 ,具体 如 下 所 示 。 


# foo.jcb 
type= command 
commandF echo "Hello World" 


在 上 述 示 例 中 ,job 的 type 类 型 为 command, 而 command 命令 参数 后 指定 输出 “Hello 
World” 信 息 ,输出 的 相关 信息 可 在 Azkaban Web UI 的 日 志 中 查看 。 
上 述 示例 演示 了 job 最 常用 的 两 个 任务 参数 type 和 command, 而 在 job 文件 中 还 可 以 
定义 其 他 许多 的 指令 参数 和 运行 属性 ,分 别 如 表 9-2 和 表 9-3 所 示 。 
表 9-2 job 文 件 常用 参数 


参 数 名 说 明 


type job 执行 的 任务 类 型 

command 表示 要 执行 的 shell 指令 

dependencies 用 于 job 之 间 建 立 依赖 关系 ,被 依赖 的 job 先 执行 

retries 将 为 失败 的 job 自动 尝试 重启 的 次 数 

retry. backoff 每 次 尝试 重启 之 间 的 毫秒 时 间 

working. dir 覆盖 执行 的 工作 目录 。 默 认 情况 下 ,这 是 包含 正在 运行 的 job 文件 的 目录 
env. property 设置 环境 变量 

failure. emails 以 逗号 分 隔 的 电子 邮件 列表 ,以 便 在 失败 时 通知 

success. emails 以 逗号 分 隔 的 电子 邮件 列表 ,以 便 在 成 功 时 通知 

notify. emails 以 逗号 分 隔 的 电子 邮件 列表 ,在 成 功 或 失败 期 间 通知 
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表 9-3 job 文件 运行 属性 


属 性 名 说 明 
azkaban. job. attempt 作业 的 尝试 编号 。 从 0 开始 ,每 次 重 试 都 会 递增 
azkaban. job. id job 名 称 
azkaban. flow. flowid 执行 job 的 工作 流 名 称 
azkaban. flow. execid 分 配给 正在 运行 的 流 的 执行 标识 
azkaban. flow. projectid 分 配给 执行 项 目的 标识 
azkaban. flow. projectversion 项 目 上 传 版 本 
azkaban. flow. uuid 分 配给 流程 执行 的 唯一 标识 符 
azkaban. flow. start. timestamp 自 纪 元 开始 时 间 以 来 的 毫秒 数 
azkaban. flow. start. year 工作 流 开始 执行 的 年 份 
azkaban. flow. start. month 工作 流 开始 执行 的 月 份 
azkaban. flow. start. day 工作 流 开始 执行 的 当月 的 某 一 天 
azkaban. flow. start. hour 工作 流 开始 执行 的 一 天 的 某 个 小 时 
azkaban. flow. start. minute 工作 流 开始 执行 的 分 钟 
azkaban. flow. start. second 工作 流 开始 执行 的 秒 数 
azkaban. flow. start. milliseconds 工作 流 开始 执行 的 毫秒 数 
azkaban. flow. start. timezone 工作 流 开始 执行 的 时 区 设置 


需要 注意 的 是 ,对 于 emails 邮件 属性 ,Azkaban 将 会 从 整个 工作 流 中 的 最 后 一 个 job 配 
园 中 检索 此 属性 ,而 配置 在 工作 流 中 其 他 job 的 所 有 邮件 属性 都 将 被 忽略 。 

表 9-2 和 表 9-3 列举 了 Azkaban 支持 的 job 参数 和 运行 属性 ,在 实际 开发 中 可 以 选择 性 
地 使 用 来 编写 job 任务 文件 。 


2. 工作 流 


工作 流 是 指 具 有 依赖 关系 的 一 组 jobs 任务 ,被 依赖 的 job 任务 会 先 执行 , 想 要 建立 job 
之 间 的 依赖 关系 需要 使 用 dependencies 参数 ,具体 示例 如 下 所 示 。 
foo. job 任务 文件 : 


1# foo.jcb 


2 type= camend 


3 cammancF echo foo 


bar. job 任务 文件 : 


1# bar.jcb 


2 type= camend 


3 dependencies= foo 
4 commancF echo bar 
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上 述 示 例 定义 了 foo. job 和 bar. job 两 个 任务 文件 ,在 bar. job 中 定义 了 dependencies 一 foo 
表示 bar. job 依赖 于 foo. job, 所 以 foo. job 会 先 执 行 。 需 要 注意 的 是 ,可 以 在 dependencies 
后 面 通过 逗号 分 隔 来 依赖 多 个 job ,同时 要 避免 循环 依赖 。 

工作 流 会 为 每 一 个 没有 被 依赖 的 job 任务 创建 一 个 工作 流 名 称 , 这 个 工作 流 名 称 和 没 
有 被 依赖 的 job 任务 同名 。 如 上 述 示例 中 ,bar. job 依赖 于 foo. job, 而 bar. job 没有 被 依赖 ， 
所 以 该 过 程 就 会 创建 一 个 名 为 bar 的 工作 流 。 


3. 嵌入 流 


工作 流 还 可 以 穿插 到 其 他 流 的 某 个 节点 上 作为 嵌入 流 。 要 创建 戏 入 流 , 只 需 创 建 一 个 
job 文件 ,其 中 设置 type 一 flow 和 flow. name 为 被 嵌入 流 的 名 称 即 可 ,具体 示例 如 下 。 


上 述 示例 定义 一 个 baz. job ,在 该 job 文件 中 通过 type = flow 和 flow. name 一 bar 设置 
幅 入 了 一 个 bar 工作 流 , 从 而 形 参 了 一 个 嵌入 流 。 需 要 说 明 的 是 ,一 个 工作 流 可 以 在 .job 文 
件 通过 参数 设置 ,实现 多 次 嵌入 使 用 。 

9.4.2 案例 演示 依赖 任务 调度 管理 


本 案例 主要 使 用 Azkaban 来 演示 具有 依赖 关系 的 任务 调度 管理 。 在 演示 之 前 ,一 定 要 
确保 Azkaban 服务 已 经 开启 ,案例 具体 实现 步骤 如 下 。 


1. 创建 job 文件 


先 创建 两 个 具有 依赖 关系 的 job 任务 文件 foo.job 和 bar. job, 如 文件 9-4 和 文件 9-5 所 示 。 
文件 9-4 foo.job 


# foo.jcb 
type= command 
CaommancF echo foo 


文件 9-5 bar. job 


接着 ,将 此 次 案例 任务 的 所 有 job 文件 和 相关 文件 (此 案例 中 只 有 foo. job 和 bar. job 
两 个 任务 文件 ) 打 包 成 ZIP 压缩 包 文件 ,并 以 工作 流 的 名 称 bar 进行 命名 。 

注意 ,Azkaban UI 目前 只 支持 ZIP 格式 的 压缩 文件 上 传 ,所 以 一 定 要 将 执行 的 任务 一 
起 打包 成 ZIP 格式 ;另外 压缩 包 的 名 称 可 以 自行 定义 ,通常 会 定义 为 工作 流 的 名 称 。 
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2. Azkaban 项 目 创建 


先 打开 Azkaban UI 的 首页 面 , 单 击 页 面 右 上 角 绿 色 按钮 “Create Project”, 会 出 现 一 个 
弹出 窗口 ,要 求 输入 此 次 管理 项 目的 Name 和 Description( 描 述 ) ,如 图 9-17 所 示 。 


| @ Azkaban Web client x 


€ | @ https//192168.121.134:8443/index 区 信和 自 有 最 会 人 四 四 


Create Project 


Name depend task 


Description 。 Azkaban depend_task test 


9-17 ”Azkaban 项 目 创建 


在 图 9-17 所 示 的 窗口 中 ,可 以 为 此 项 目 自 定义 名 称 ( 如 depend_task) 和 描述 。 需 要 注 
意 的 是 ,创建 Azkaban 项 目 时 ,项 目 名 称 必须 唯一 ,并 且 项 目 名 称 和 描述 不 能 为 空 ,也 不 支 
持 中 文 。 

接着 , 单 击 窗口 右 下 角 的 “Create Project” 按 钮 即 可 创建 成 功 。 在 创建 项 目 成 功 的 界 
面 , 单 击 *Upload” 按 钮 ,效果 如 图 9-18 所 示 。 


| [El 
了 加 Azkaban web Client x\ 十 - 
@ ) 日 htpc//192.168.121.1348443/manager?project-depend_tack EE 售 自 时 全 呈 轩 全 去 


Upload Project Files 


Job Aronve | [RE varzp 


图 9-18 ” Azkaban 项目 文件 上 传 


从 图 9-18 可 以 看 出 ,在 弹出 的 对 话 框 中 要 求 上 传 所 需 执行 任务 的 ZIP 文件 ,选择 前 面 
创建 的 bar. zip 文件 进行 上 传 ,然后 单 击 "Upload” 按 钮 ,效果 如 图 9-19 所 示 。 
从 图 9-19 可 以 看 出 ,该 界面 就 是 Azkaban 项 目的 主 界面 ,这 里 可 以 查看 该 项 目的 工作 
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:下 


€ ] 6 hep//102168171 1428113/mang pr dice depord ee EE 女 自 革 会 人 用 加 四 三 


| 加 Aksban webcien 


Pralectdepend task 


depend task 
v 上 ETD EECD EC | Azkaban depend task 
test 


Created on 
2018-09-12 19:57:32 


图 9-19 ” Azkaban 项 目 主 界面 


流 详情 Flows 管理 权限 详情 Permissions 和 项 目 日 志 信 息 Project Logs, 同 时 还 可 以 在 页 面 
右 侧 查看 项 目 创建 的 相关 信息 (如 创建 时 间 )。 有 兴趣 的 读者 可 以 单 击 各 个 面板 的 相关 按 
钮 ,进行 查看 。 

这 里 需要 说 明 的 是 ,该 Azkaban UI 的 时 间 是 与 启动 该 Web 服务 的 Linux 系统 时 间 保 
持 一 致 的 ,而 Linux 系统 时 间 通 常 比较 亲 乱 ,与 系统 当前 时 间 不 一 致 ,所 以 为 了 避免 后 续 设 
置 定时 任务 并 及 时 查看 演示 效果 ,建议 将 Linux 虚拟 机 时 间 设 置 与 系统 当前 时 间 保 持 一 致 ， 
然后 再 启动 服务 。 


3. Azkaban 项 目 执行 


在 Azkaban 项 目的 主 界面 ,可 以 直接 单 击 项 目 名 后 的 “Execute Flow” 按 钮 来 执行 当前 
项 目 。 当 单 击 “Execute Flow” 按 钮 后 ,会 出 现 一 个 弹出 窗口 ,如 图 9-20 所 示 。 
E | 


rr 
$B httpe/1192168.1211343443/manager?project-depend bsk EE 全 自如 会 玫 四 介 王 


Execute Flow bar 


图 9-20 ” Azkaban 项 目 执行 界面 
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从 图 9-20 可 以 看 出 ,上 传 的 bar. zip 任务 流程 图 显示 了 job 文件 的 执行 流程 ( 先 执行 
foo. job 再 执行 bar. job) ,同时 在 弹 窗 下 方 有 两 个 重要 的 按钮 : Schedule 和 Execute。 其 中 
Schedule 按钮 用 于 进行 任务 定时 执行 的 设置 ,而 Execute 用 于 任务 的 立即 执行 。 接 下 来 ,就 


对 这 两 种 任务 调度 方式 进行 分 别 讲解 。 
(1) 使 用 Schedule 设置 定时 任务 。 


这 里 先 来 演示 使 用 Schedule 设置 定时 任务 , 单 击 图 9-20 中 所 示 的 Schedule 按钮 ,会 打 


开 一 个 定时 任务 设置 界面 “Schedule Flow Options”, 如 图 9-21 所 示 。 


图 Ab web cfent 


Asia/Shanghal 


€ /p192168 121134 80443 EE 3 六 和 白 #4 全 4 外 9 三 


图 9-21 Azkaban 项 目 定时 设置 界面 


从 图 9-21 可 以 看 出 ,Azkaban 项 目 定时 设置 界面 ,主要 分 为 4 个 区 域 : 定时 设置 区 域 、 


时 间 设 置 规则 说 明 区 域 .Quartz cron 表达 式 生成 区 域 和 接 下 来 10 次 任务 调度 时 间 


区 域 。 


在 该 页 面 中 ,需要 开发 者 在 定时 设置 区 域 中 编写 任务 调度 规则 ,如 Min、Hours、Day of 
Month、Month 和 Day of Week ,在 对 话 框 右 侧 有 对 应 的 规则 说 明 , 如 表 9-4 所 示 。 


表 9-4 Azkaban 项 目 定时 设置 规则 说 明 


时 间 取 值 说 明 


* * 表示 任意 值 


逗号 可 以 分 隔 多 个 时 间 点 ,如 20,40 
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续 表 


时 间 取 值 说 上 明 


一 一 用 来 设 定时 间 区 域 ,如 16 一 17 


/ / 表示 相隔 时 间 


该 数值 会 随 着 时 间 设 置 选中 区 域 不 同 而 不 同 ,从 而 限定 可 选 值 。 例 如 鼠标 在 
图 9-21 中 的 可 取 值 |“Day of Week” 框 , 则 显示 可 取 值 1~7; 而 当 鼠 标 在 “Month” 框 , 则 显示 可 取 值 
l=~12 

表示 为 空 。Quart 时 间 表 达 式 不 支持 同时 指定 day-of-week 和 day-of-month, 所 
以 其 中 一 个 必须 为 “?” 


接 下 来 ,就 按照 图 9-21 所 示 的 数值 来 设置 此 次 任务 的 定制 规则 (为 了 快速 查看 演示 效 
果 , 读 者 在 设 定时 间 时 可 以 设置 为 当前 系统 接近 的 时 间 ), 其 中 Min 为 /3, Hours 为 16 一 17， 
Day of Month 为 2, Month 为 8,Day of Week 为 ? ,设置 的 任务 会 在 8 月 2 日 16 和 17 点 每 
隔 3 分 钟 执行 一 次 。 定 制 时 间 规则 完成 后 ,会 自动 在 下 面 生成 Quartz cron 表达 式 “0 /3 16- 
17 2 8 ?”, 同 时 会 在 最 下 方 生成 接 下 来 10 个 将 要 定时 执行 的 时 间 点 (通过 这 个 时 间 点 可 以 
核查 定时 规则 是 否 满 足 需求 ) 。 

设置 好 定时 规则 后 , 直接 单 击 设置 框 右 下 角 的 Schedule 按钮 ,会 出 现 一 个 “Flow 
Scheduled” 提 示 框 ,表示 定时 任务 设置 成 功 。 然 后 直接 单 击 提示 框 的 Continue 按钮 就 会 跳 
转 到 定时 任务 界面 ,如 图 9-22 所 示 。 


了 加 wa 
者 ,日 ht 


cc xx 了 


/A Azkaban 


Scheduled Flows 


* Chok column neaders to sort 
First 


Submitted Scheduled Execution Repeats Cron Execution Has 
#1D Flow Project By toRun Time Every Expresslon Options SLA Action 
13 bar depend task admin 2018-08-02 2018-08-02 Not 0816172 ED TDFc omove scneause 


1740:46 174200 。 Applicable 8? 


图 9-22 ” Azkaban 定时 任务 界面 


从 图 9-22 可 以 看 出 ,设置 的 此 次 定时 任务 的 执行 信息 。 接 着 , 单 击 页 面 顶部 的 
Executing 面板 按钮 ,就 会 查看 到 “Currently Running( 正 在 执行 )” 和 “Recently Finished( 最 
近 执 行 完 毕 )” 的 任务 信息 ,效果 如 图 9-23 所 示 ( 由 于 此 次 演示 的 任务 非常 简单 ,执行 过 程 很 
快 ,所 以 Currently Running 面板 可 能 没有 任何 信息 展示 )。 

从 图 9-23 可 以 看 出 ,设置 的 此 次 定时 任务 已 经 成 功 执行 了 两 次 ,并 且 展 示 了 执行 过 程 
的 相关 信息 。 接 着 ,可 以 选择 其 中 一 个 “Execution Id( 执 行 ID)? 单 击 进 入 查看 任务 详情 , 效 
果 如 图 9-24 所 示 。 

从 图 9-24 可 以 看 出 ,在 该 界面 可 以 通过 面板 按钮 ,如 Job List 和 Flow Log 等 查看 当前 
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J [ol5 me) 
€] @ hape/No7 168 1711530 ee 和 


Executing Flows 


Camamly Running | Racamly Finished 


* Click oolumn headers to sort 


# Executlon ld Flow Project User Proxy star nme ana mme Elapsed Status 。 Acton 


Ee] 


sk admin [admin] 2018-06-02 17.42.40 2018-08-0217.4241 (sec 


sk admin [admin] 2018-08-0217:45:40 2018-08-0217:45:40 0 sec 


| > 
图 9-23 ” Azkaban 定时 任务 监控 界面 
‘ [= 1 5 en 
厂 图 azkaban web Chient * 园 
€ DP Bhtps//192.168.121134844 b 加 QF 全 和 白 咏 舍 全 | 三 
A Azkaban Prolects 
i Submit User aomin Start Time 2016-00-02 17.42 40s 
low =xeculon i Duration 0 sec End Time 2018-08-02 17.42 41S 
Praleetdepena task ，Flow bar ‘ Execution 
onTiggerligt | obUat | Fowtog EC 
Name ype | Timeline Start Time End Time Eapsed Status Detals 
foo command 2018-08-0217:42 2018-08-021742 Qsec EE Jetaite 
mes| 4 a0s 
commang 2018-08.0217.42 2018.00.021742 0ser EE oe 
HN 国 1s 
Pa 


图 9-24 ” Azkaban 定时 任务 执行 详情 界面 


执行 任务 的 几乎 所 有 详情 ,读者 在 演示 时 可 以 自行 查看 。 

此 次 定时 任务 是 执行 command 王 echo foo 和 command 王 echo bar 两 条 指令 ,可 以 单 击 
图 9-24 所 示 的 command 后 的 “Details” 详 细 链 接 ,在 跳 转 的 “Job Logs” 界 面 即 可 查看 任务 
执行 结果 ,效果 如 图 9-25 所 示 。 

(2) 使 用 Execute 立即 执行 任务 。 

这 里 来 演示 Azkaban 项 目 任务 的 立即 执行 ,在 Azkaban UI 选择 之 前 创建 的 “depend_ 
task” 项 目 , 单 击 Execute Flow 按钮 后 再 次 打开 如 图 9-20 中 所 示 的 “Execute Flow bar” 界 
面 。 在 该 界面 直接 单 击 右 下 角 的 Execute 按钮 ,选择 立即 执行 任务 ,会 弹出 一 个 “Flow 
submitted” 提 示 框 ,表示 工作 流 提交 成 功 。 然 后 直接 单 击 提示 框 的 Continue 按钮 就 会 跳 转 
到 任务 执行 详情 界面 ,如 图 9-26 所 示 。 

从 图 9-26 可 以 看 出 ,创建 的 Azkaban 项 目 使 用 Execute 立即 执行 成 功 。 在 该 界面 ,也 
可 以 查看 执行 后 的 任务 的 详细 信息 。 
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Job Execution foo 
Project depend_task ，PFlow bar ，Execution 24 ，Jobf 
Job logs 


Job Logs Reresn 


en 
图 9-25 ” Azkaban 定时 任务 日 志 详情 界面 
| Cr 二 | 
要， 目 hrpsy1192168.121.13454H ev Jjob 沁 [> 全 自如 会 哺 国 全 二 
/A Azkaban ro 
Flow Do 
上 Cy ame oped ons [Don 
上 omand oo rrr 
bar command ss 2018-08-03 13.41 57s 2018-08-03 13:41 57s 0 sec | Success | Details 
a 
图 9-26 ” Azkaban 任务 立即 执行 详情 界面 
9.4.3 案例 演示 MapReduce 任务 调度 管理 
本 案例 主要 使 用 Azkaban 来 演示 MapReduce 执行 wordcount 任务 的 调度 管理 。 在 演 


示 之 前 ,除了 确保 Azkaban 服务 已 经 开启 外 ,还 需要 开启 部 署 在 hadoop01、hadoop02 和 


hadoop03 上 的 Hadoop 集群 .案例 具体 实现 步骤 如 下 。 
1. 创建 job 文件 


此 次 MapReduce 任务 调度 
为 wordcount_mr. job 的 任务 文件 ,如 文件 9-6 所 示 。 


会 通过 一 个 wordcount 案例 来 进行 演示 , 先 创建 一 个 名 称 
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文件 9-6 ”wordcount_mr. job 


# mm.jab 

type= Command 

command hadoap jar hadbop- mapredhce_ examples- 2.7.4.jar wordoount \ 
hafs://hadbop01:9000/wordcount/input/wctest.bxt \ 
hafs://hadbop01:9000/wordooumnty/input/nrjdbresat 


从 文件 9-6 可 以 看 出 , wordcount_mr. job 将 会 使 用 集群 自 带 的 样 例 mapreduce- 
examples jar 包 来 对 HDFS 上 /wordcount/input 目录 下 的 wctest. txt( 该 文件 在 第 4 章 学 习 
MapReduce 时 已 经 上 传 到 了 HDFS 的 该 目录 下 ,如 果 没 有 , 则 需要 提前 上 传 ) 进 行 
wordcount 统计 ,并 将 统计 结果 存放 在 了 /wordcount/input 目录 下 的 mrjobresult 目录 中 。 

另外 ,该 案例 还 需要 hadoop-mapreduce-examples-2.7. 4. jar 样 例 包 ,所 以 还 需要 在 job 
文件 同 级 目录 下 提供 该 jar 包 ( 实 际 开发 中 , 则 需要 将 开发 者 自 定义 的 MapReduce 程序 打 成 
jar 包 放 在 job 文件 同 级 目录 下 )。 接 着 ,将 此 次 案例 任务 的 所 有 job 文件 和 该 jar 包 打 包 成 
ZIP 压缩 包 文件 ,并 以 工作 流 的 名 称 wordcount_mr 进行 命名 。 


2. MapReduce 任务 调度 演示 


接着 ,就 可 以 参考 9.4. 2 节 中 的 案例 说 明 来 完成 该 wordcount 案例 的 调度 演示 了 ,这 里 
将 会 选择 立即 执行 任务 来 演示 效果 。 

在 参考 前 面 案 例 的 实现 步骤 下 ,完成 此 次 wordcount 案例 项 目的 创建 后 , 单 击 项 目 工作 
流 后 的 Execute Flow 按钮 并 选中 Execute 按钮 来 立即 执行 项 目 ,效果 如 图 9-27 所 示 。 


ee 
/AabonWeb cient x 上 HDFS x MN Arplcedons 下 | 十 
4 @ https//192,168.121.134:8443/0 orfoxocid- azajcbalzt [=] Qa 全 | 由 县 全 4 固 外 至 
| Flow Execution 42 RUNNING se Fp ie 
| Project woroc ount_Imr_ Ba / Flow wordcounl_nr ‘Execution 
Fow Troger ist (Jobint | Fowlog Su 加 区 3 
Name mpe Tmeine stan nme End mme Elapsed status Detals 
wordcount_mr commang 和 本 全 全 全 全 他) 2018-08-03 15:38 285 Detals 
» 7 
9-27 ” Azkaban 项 目 执行 界面 
从 图 9-27 可 以 看 出 ,调度 管理 的 wordcount 任务 正在 执行 过 程 中 ,此 时 立刻 在 YAR 


集群 管理 界面 查看 执行 情况 .效果 如 图 9-28 所 示 。 

从 图 9-28 可 以 看 出 ,该 案例 需要 执行 MapReduce 程序 进行 wordcount 计算 ,所 以 会 有 
执行 详情 ,并 且 提 示 正 在 运行 中 。 

稍 等 片刻 ,再 次 刷新 查看 YARN 界面 和 Azkaban 项 目 执行 界面 ,会 发 现任 务 最 终 的 执 
行 结 果 ,Azkaban 界面 效果 如 图 9-29 所 示 。 
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图 9-29 ” Azkaban 项 目 执行 结果 界面 


从 图 9-29 可 以 看 出 ,此 次 Azkaban 管理 调度 的 wordcount 任务 执行 成 功 。 接 着 ,可 以 
通过 HDFS 的 UI 查看 wordcount 执行 结果 ,效果 如 图 9-30 所 示 。 


Sa i a 


[可 ) ® 1921681211aso07oyeer 


n 


orarinpurymrjobrecuk 


QQ AR 食 自 是 全 人 轩 目 


Browse Directory 
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Permission owner Group Sbe LastModified Replication Block Size Nar 
-wr— root supergroup 08 ~ 2018/8/3 下 午 338.58 3 128 MB 
-mr root supergroup 54B 2018/8/3 下 午 3.38.58 3 128 MB 

罗 2 


图 9-30 HDFS 的 Web 界面 


从 图 9-30 可 以 看 出 ,按照 job 程序 的 指示 在 /wordcount/input 目录 下 生成 了 mrjobresult 


目录 ,并 在 该 目录 下 生成 了 wordcount 计算 结果 ,下 载 并 打开 此 结果 文件 就 可 以 查看 具体 的 
统计 详情 。 
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9.4.4 ”案例 演示 一 一 HIVE 脚本 任务 调度 管理 


本 案例 主要 使 用 Azkaban 来 演示 HIVE 脚本 任务 的 调度 管理 。 在 演示 之 前 ,需要 确保 
Azkaban 服务 已 经 开启 外 ,开启 部 署 在 hadoop01、hadoop02 和 hadoop03 上 的 Hadoop 集 
群 , 同 时 必须 保证 Hive 安装 配置 完成 ,案例 具体 实现 步骤 如 下 。 


1. 创建 job 文件 


先 创建 一 个 名 称 为 hive. job 的 任务 文件 ,如 文件 9-7 所 示 。 
文件 9-7 hive. job 


# hivef.jcb 
type= command 
CamancF /export/servers/apache— hive- 1.2.1- bin/bin/hive — £ 'test.sql' 


从 文件 9-7 可 以 看 出 ,hive. job 中 将 会 执行 一 个 hive 指令 ,该 指令 通过 -f 参数 来 执行 一 
个 test. sql 脚本 文件 。 

接着 ,创建 hive. job 任务 文件 需要 的 test. sql 文件 ,如 文件 9-8 所 示 。 

文件 9-8 test. sql 


Use default; 
drop table aztest; 

GElimited fields terminated by ','; 
load data inpath "/aztest/hiveinput' into table aztest; 
insert overwrite directory "/aztest/hiveoutput' 

select count (1) 人 ram aztest; 


上 述 test. sql 文件 中 ,使 用 Hive 默认 的 default 数据 库 创 建 了 一 个 aztest 表 ; 然 后 ,加 
载 HDFS 上 的 /aztest/hiveinput 目录 下 的 所 有 文件 到 aztest 表 中 ;接着 ,查询 出 aztest 表 中 
的 数据 条 数 , 写 入 到 HDFS 上 的 /aztest/hiveoutput 目录 下 的 文件 。 

为 了 实现 上 述 test. sql 程序 的 执行 ,这 里 需要 预先 创建 一 个 aztest. txt 文件 (创建 位 置 
自行 定义 ,此 处 定义 在 hadoop01 机 器 的 /export/data/hivedata 目录 下 ), 并 上 传 到 HDFS 
上 的 /aztest/hiveinput 目录 下 。 其 中 ,aztest. txt 文件 内 容 , 如 文件 9-9 所 示 。 

文件 9-9 aztest. txt 


Lallen 
2,tam 
3,jerry 


然后 ,在 HDFS 先 创 建文 件 存 放 目 录 /aztest/hiveinput, 再 在 hadoop01 机 器 上 将 
aztest. txt 文件 上 传 到 该 目 录 , 具 体 指令 如 KR 


$ hadbop £5 -medir -p /aztest/hiveinput 
$ hadocp fs -put aztest.txt /aztest/hiveinput 
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完成 此 次 案例 的 准备 工作 之 后 ,将 此 次 案例 任务 的 hive. job 文件 和 test. sql 打包 成 


ZIP 压缩 包 文件 ,并 以 工作 流 的 名 称 hive 进行 命名 。 


2. HIVE 脚本 任务 调度 演示 


接着 ,就 可 以 参考 9. 4. 2 节 中 的 案例 说 明 来 完成 该 HIVE 脚本 
了 ,这 里 同样 会 选择 立即 执行 任务 来 演示 效果 。 


任务 案例 的 调度 演示 


在 参考 前 面 案例 的 实现 步骤 完成 此 次 HIVE 脚本 任务 案例 项 目的 创建 后 , 单 击 项 目 工 
作 流 后 的 Execute Flow 按钮 并 选中 Execute 按钮 来 立即 执行 项 目 ,效果 如 图 9-31 所 示 。 


i 
wj mame tt 
Ee a 六 自 咏 会 看 天 人 允 三 
/A Azkaban 
= ET Start Tme 2018.0806 1429 26 
‘ecution 48 RUNNING avon 1 sec End Tme | 
配 
i Wee vne san Tee ne Tme apsed sa |oeam 
SS Er ~ 
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图 9-31 Azkaban 项 目 执行 界面 


从 图 9-31 可 以 看 出 ,调度 管理 的 HIVE 脚本 任务 正在 执行 过 程 中 。 在 该 过 程 中 ,可 以 
参考 9. 4. 3 节 的 案例 ,查看 YARN 集群 管理 界面 任务 执行 情况 。 在 稍 等 片刻 后 ,再 次 刷新 
查看 YARN 界面 和 Azkaban 项 目 执行 界面 ,会 发 现任 务 最 终 的 执行 结果 。 其 中 , Azkaban 


界面 效果 如 图 9-32 所 示 。 
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图 9-32 ”Azkaban 项 目 执行 结果 界面 


从 图 9-32 可 以 看 出 ,此 次 Azkaban 管理 调度 的 HIVE 脚本 任务 执 
通过 HDFS 的 UI 查看 HIVE 脚本 任务 执行 结果 ,效果 如 图 9-33 所 示 。 


行 成 功 。 接 着 ,可 以 


从 图 9-33 可 以 看 出 ,按照 job 程序 的 指示 在 HDFS 中 生成 了 /aztest/hiveoutput 目录 ， 


并 在 该 目录 下 生成 了 任务 执行 结果 ,下 载 并 打开 此 结果 文件 就 可 以 查看 具体 的 执行 结果 。 
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图 9-33 HDFS 的 Web 界面 


9.5 ”本章 小 结 


本 章 详细 讲解 了 Hadoop 生态 圈 中 的 Azkaban( 工 作 流 管理 器 ) 的 基本 知识 。 首 先 介绍 
了 工作 流 管 理 器 的 使 用 需求 ,并 对 比较 常用 的 Azkaban 工作 流 管 理 器 特点 、 结 构 和 部 署 进 
行 讲解 ;接着 ,重点 讲解 了 Azkaban 双 服 务 模式 的 部 署 、 测 试 ;最 后 ,通过 3 个 基本 案例 讲解 
了 Azkaban 工作 流 管理 器 的 具体 使 用 。 通 过 本 章 的 学 习 , 读 者 可 以 对 Azkaban 有 一 定 的 认 
识 ,能够 掌握 Azkaban 的 部 署 和 使 用 ,并 能 够 使 用 Azkaban 进行 任务 调度 管理 。 


9.6 课 后 习题 


一 、 填空 题 

1，Azkaban 是 由 Linkedin 公司 开源 的 一 个 ,用 于 在 一 个 工作 流 内 以 一 个 特定 
的 顺序 运行 一 组 工作 和 流程 。 

2.，Azkaban 定义 了 一 种 格式 来 建立 任务 之 间 的 依赖 关系 ,并 提供 一 个 易于 使 
用 的 维护 和 跟踪 工作 流 。 

3. Azkaban 工作 流 管理 器 的 特点 是 所 有 的 任务 资源 文件 都 需要 上 传 。 

4. Azkaban 工作 流 管理 器 由 3 个 核心 部 分 组 成 ,具体 分 别 是 ys 
和 8 

5. Azkaban 提供 3 种 部 署 模式 : 轻 量 级 的 .重量 级 的 和 

二 、 判 断 题 

1. Azkaban 可 以 通过 查看 executorServerLog__x* .out 日 志文 件 和 logs 目录 下 的 日 志 
文件 查看 Azkaban Executor 服务 器 的 启动 情况 。 ( ) 

2. Azkaban 是 对 job 进行 调度 管理 的 .而 每 一 个 job 任务 都 是 编写 在 一 个 文本 文件 中 ， 
且 对 文本 文件 没有 限制 。 ( ) 


3. Azkaban 要 建立 job 之 间 的 依赖 关系 需要 使 用 command 参数 。 ( J" 
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三 、 选 择 题 
下 列 选项 中 ( ) 是 配置 job 的 必要 参数 (多 选 ) 。 
A. type 


B. dependencies 
C. command 


D. flow. name 
、 简 答题 


1. 简 述 Azkaban 中 的 project job 和 flow 元 素 的 关系 。 
2. 简 述 Azkaban 的 组 成 部 分 ,以 及 各 个 部 分 的 功能 。 


第 | 10 章 
Sqoop 数 据 迁 移 


学 习 目 标 

。 了 解 Sqoop 基本 概念 。 

。 掌握 Sqoop 安装 配置 。 

。 熟悉 Sqoop 常用 的 相关 指令 。 

。 掌握 使 用 Sqoop 进行 导入 导出 。 


在 实际 开发 中 ,有 时 候 需要 将 HDFS 或 Hive 上 的 数据 导出 到 传统 数据 库 中 (如 
MySQL .Oracle 等 ) ,或 者 将 传统 数据 库 中 的 数据 导入 到 HDFS 或 Hive 上 ,如 果 通 过 人 工 
手动 进行 数据 迁移 的 话 ,就 会 显得 非常 麻烦 。 为 此 ,可 以 使 用 Apache 提供 的 Sqoop 工具 进 
行 数 据 迁 移 ,本 章 就 对 Sqoop 工具 的 安装 和 使 用 进行 详细 讲解 。 


10.1 Sqoop 概述 


10.1.1 Sqoop 简介 


Sqoop 是 Apache 旗下 的 一 款 开 源 工具 ,该 项 目 开 始 于 2009 年 ,最 早 是 作为 Hadoop 的 
一 个 第 三 方 模块 存在 ,后 来 为 了 让 使 用 者 能 够 快速 部 署 , 也 为 了 让 开发 人 员 能 够 更 快速 地 迭 
代 开 发 ,在 2013 年 ,独立 成 为 Apache 的 一 个 顶级 开源 项 目 。 

Sqoop 主要 用 于 在 Hadoop 和 关系 数据 库 或 大 型 机 之 间 传 输 数 据 ,可 以 使 用 Sqoop 工 
具 将 数据 从 关系 数据 库 管理 系统 导入 (import) 到 Hadoop 分 布 式 文件 系统 中 ,或 者 将 
Hadoop 中 的 数据 转换 导出 (export) 到 关系 数据 库 管 理 系统 ,其 功能 如 图 10-1 所 示 。 


Sqoop 
[7 导入 


关系 数据 库 Hadoop 


(MySQL、 oo | (HDFS 、Hive 等 ) 


导出 


图 10-1 Sqoop 功能 


目前 Sqoop 主要 分 为 Sqoop 1 和 Sqoop 2 两 个 版 本 ,其 中 ,版 本 号 为 1. 4. x 属于 Sqoop 
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1 ,而 版 本 号 为 1. 99.x 的 属于 Sqoop 2。 这 两 个 版 本 开发 时 的 定位 方向 不 同 ,体系 结构 具有 
很 大 的 差异 ,因此 它们 之 间 互 不 兼容 。 

Sqoop 1 功能 结构 简单 ,部 署 方便 ,提供 命令 行 操作 方式 ,主要 适用 于 系统 服务 管理 人 
员 进 行 简单 的 数据 迁移 操作 ;Sqoop 2 功能 完善 .操作 简便 ,同时 支持 多 种 访问 模式 (命令 行 
操作 、Web 访问 和 Rest API) ,引入 角色 安全 机 制 增加 安全 性 等 多 种 优点 ,但 是 结构 复杂 , 配 
置 部 署 更 加 烦琐 。 由 于 本 书 只 用 到 Sqoop 解决 数据 迁移 问题 ,因此 使 用 Sgoop 1 就 可 以 完 
成 基本 的 需求 。 


10.1.2 Sqoop 原理 


Sqoop 是 传统 关系 数据 库 服务 器 与 Hadoop 间 进 行 数据 同步 的 工具 ,其 底层 利用 
MapReduce 并 行 计算 模型 以 批 处 理 方式 加 快 了 数据 传输 速度 ,并 且 具 有 较 好 的 容错 性 功 
能 ,工作 流程 如 图 10-2 所 示 。 


CLI、API 
加 二 全 Sqoop” 厂 二 一 一 一 Mapper 任 务 


2 | | 
记录 容器 类 HDFS、 Hive、Hbase 


图 10-2 ”Sqoop 工作 流程 


从 图 10-2 可 以 看 出 ,通过 客户 端 CLI( 命 令 行 界面 ) 方 式 或 Java API 方 式 调用 Sqoop 工具 ， 
Sqoop 可 以 将 指令 转换 为 对 应 的 MapReduce 作业 (通常 只 涉及 Map 任务 ,每 个 Map 任务 从 数 
据 库 中 读 取 一 片 数据 ,这 样 多 个 Map 任务 实现 并 发 地 复制 ,可 以 快速 地 将 整个 数据 复制 到 
HDFS 上 ) ,然后 将 关系 数据 库 和 Hadoop 中 的 数据 进行 相互 转换 ,从 而 完成 数据 的 迁移 。 

可 以 说 ,Sqoop 是 关系 数据 库 与 Hadoop 之 间 的 数据 桥梁 ,这 个 桥梁 的 重要 组 件 是 
Sqoop 连接 器 , 它 用 于 实现 与 各 种 关系 数据 库 的 连接 ,从 而 实现 数据 的 导入 和 导出 操作 。 
Sqoop 连接 器 能 够 支持 大 多 数 常用 的 关系 数据 库 , 如 MySQL Oracle.`DB2 和 SQL Server 
等 ,同时 它 还 有 一 个 通用 的 JDBC 连接 器 ,用 于 连接 支持 JDBC 协议 的 数据 库 。 


1. 导入 原理 


在 导入 数据 之 前 ,Sqoop 使 用 JDBC 检查 导入 的 数据 表 . 检 索 出 表 中 的 所 有 列 以 及 列 的 
SQL 数据 类 型 ,并 将 这 些 SQL 类 型 映射 为 Java 数据 类 型 ,在 转换 后 的 MapReduce 应 用 中 
使 用 这 些 对 应 的 Java 类 型 来 保存 字段 的 值 ,Sqoop 的 代码 生成 器 使 用 这 些 信息 来 创建 对 应 
表 的 类 ,用 于 保存 从 表 中 抽取 的 记录 。 


2. 导出 原理 
在 导出 数据 之 前 ,Sqoop 会 根据 数据 库 连接 字符 串 来 选择 一 个 导出 方法 ,对 于 大 部 分 系统 
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来 说 ,Sqoop 会 选择 JDBC。Sqoop 会 根据 目标 表 的 定义 生成 一 个 Java 类 ,这 个 生成 的 类 能 够 从 
文本 中 解析 出 记录 数据 ,并 能 够 向 表 中 插入 类 型 合适 的 值 ,然后 启动 一 个 MapReduce 作业 ,从 
HDFS 中 读 取 源 数 据 文件 ,使 用 生成 的 类 解析 出 记录 ,并 且 执 行 选 定 的 导出 方法 。 


10.2 ”Sqoop 安装 配置 


Sqoop 的 安装 配置 非常 简单 ,前 提 是 部 署 Sqoop 工具 的 机 器 需要 具备 Java 和 Hadoop 
的 运行 环境 。 接 下 来 ,本 书 将 采用 编写 时 最 新 稳定 版 本 Sqoop-1. 4. 6 来 讲解 Sqoop 的 安装 
配置 ,下 载 地 址 为 http://archive. apache. org/dist/sqoop/1. 4. 6/。 


1. Sqoop 安装 


首先 将 下 载 好 的 安装 包 上 传 至 hadoop01 主 节点 的 /export/software 目录 中 ,并 解压 
至 /export/servers 路 径 下 ,然后 对 解压 包 进 行 重 命名 ,具体 指令 如 下 。 


5 tar - zxvf sqpop- 1.4.6.bin hadoap- 2.0.4- alpha.tar.gz -C /export/servers/ 
$ my sqpop- 1.4.6.bin hadoop- 2.0.4- alfha/ scpop- 1.4.6 


执行 完 上 述 Sqoop 的 下 载 解压 后 ,就 完成 了 Sqoop 的 安装 。 
2. Sqoop 配置 


(1) 先进 入 Sqoop 解压 包 目 录 中 的 conf 文件 夹 目 录 下 .将 sqoop-env-template. sh 文件 
复制 并 重 命 名 为 sqoop-env. sh, 对 该 文件 中 的 如 下 内 容 进行 修改 。 


export HADOOP OMMON HME= /export/Servers/hadbop- 2.7.4 
export. BADOOP MAPRED HOME- /export/servers/hadoop- 2.7.4 
Export HIVE_HOMF /export/servers/apache— hive- 1.2.1- bin 


在 sqoop-env. sh 配置 文件 中 ,需要 配置 的 是 Sqoop 运行 时 必 备 环境 的 安装 目录 ,Sqoop 
运行 在 Hadoop 之 上 ,因此 必须 指定 Hadoop 环境 。 另外 ,在 配置 文件 中 还 要 根据 需要 自 定 
义 配 置 Hbase、Hive 和 Zookeeper 等 环境 变量 (如 本 章 后 续 将 会 使 用 到 Hive, 所 以 必须 配置 
Hive 的 环境 变量 ,而 其 他 无 关 环 境 变量 如 果 未 配置 ,使 用 过 程 中 可 能 会 出 现 警 告 提示 ,但 不 
影响 其 他 操作 ) 。 

小 提示 : 需要 说 明 的 是 ,本 书 讲解 的 Hadoop 是 Apache 社区 版 本 ,Hadoop 重要 的 组 件 
都 是 安装 在 一 个 安装 包 中 ,所 以 上 述 配 置 文件 中 配置 的 HADOOP_COMMON_HOME 与 
HADOOP_MAPRED_ HOME 指定 的 Hadoop 安装 目录 一 致 。 如 果 使 用 第 三 方 的 
Hadoop ,这些 组 件 都 是 可 选择 配置 的 ,那么 这 两 个 路 径 可 能 会 有 所 不 同 。 

(2) 为 了 后 续 方 便 Sqoop 的 使 用 和 管理 ,可 以 配置 Sqoop 系统 环境 变量 。 使 用 “vi / 
etc/profile” 指 令 进 入 到 profile 文件 ,在 文件 底部 进一步 添加 如 下 内 容 类 配置 Sqoop 系统 环 


export. SQOOP HME= /export/servers/sqpop- 1.4.6 
export. PATH= $ PATH:$ SOOOP HME/bin 
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配置 完成 后 直接 保存 退出 ,接着 使 用 “source /etc/profile” 指 令 刷 新 配置 文件 即 可 。 

(3) 当 完 成 前 面 Sqoop 的 相关 配置 后 ,还 需要 根据 所 操作 的 关系 数据 库 添加 对 应 的 
JDBC 驱动 包 , 用 于 数据 库 连接 。 本 书 将 针对 MySQL 数据 库 进 行 数据 迁移 操作 ,所 以 需要 
将 mysql-connector-java-5. 1. 32. jar( 版 本 可 以 自行 选择 ) 包 上 传 至 Sqoop 解压 包 目 录 的 lib 
文件 夹 下 。 


3. Sqoop 效果 测试 


执行 完 上 述 Sqoop 的 安装 配置 操作 后 ,就 可 以 执行 Sqoop 相关 指令 来 验证 Sqoop 的 执 
行 效 果 了 ,具体 指令 如 下 (此 次 在 Sqoop 的 解压 包 下 执行 ,同时 注意 数据 库 密码 ) 。 


$ sqpop list- databases \ 
一 Connect jdbc:mysql ://localhost:3306/ \ 
一 - Username root — ~- password 123456 


上 述 指令 中 ,sqoop list-databases 用 于 输出 连接 的 本 地 MySQL 数据 库 中 的 所 有 数据 
库 名 ,如 果 正 确 返 回 指定 地 址 的 MySQL 数据 库 信息 .那么 说 明 Sqoop 配置 完毕 。 
执行 上 述 指令 后 ,终端 效果 如 图 10-3 所 示 。 
国 192168.121.134 - SecureCRT es 


文件 ( 明 ” 编 强 (日 。 王 看 V) 运 项 (0) 传输 (1) 记 本 (S) 工具 lL) 帮助 |H) 
科 罚 铝 外 疯 | 名 区 的 | 吗 吕 名 四季 919| 醒 上 


to the root of your Zookeeper installation. 
INFO sqoop.Sqoop: Running Saoop version: 1.4.6 
WARN tool. basesqoopTool: Setting your password on the command-1ine is insecure, consider using 


NFO manager .MysQaiManager: Preparing to use a MysQL streaming resultset. 


firformatTorLschena 
hzkaban 


国 


ssh2; AES-256-CTR 19, 30 20 行 113 列 VT100 大写 数字 


图 10-3 ”Sqoop 验证 效果 


从 图 10-3 可 以 看 出 ,执行 完 上 述 指令 后 ,通过 Sqoop 成 功 查询 出 连接 的 MySQL 数据 
库 中 的 所 有 数据 库 名 ,这 就 说 明 Sqoop 的 安装 配置 正确 。 


10.3 ”Sqoop 指令 介绍 


Sqoop 工具 操作 简单 , 它 提供 了 一 系列 的 工具 指令 ,用 来 进行 数据 的 导入 .导出 操作 等 。 
使 用 Sqoop 解压 包 中 bin 目录 下 的 “sqoop help” 指 令 可 以 查看 Sqoop 支持 的 所 有 工具 指令 ， 
具体 效果 如 图 10-4 所 示 。 

图 10-4 返回 结果 即 为 Sqoop 支持 的 所 有 工具 指令 .并且 对 应 有 英文 解释 说 明 。 其 中 ， 
包含 了 常用 的 导入 (import) 、 导 出 (export) 、 显 示 所 有 数据 库 名 称 (list-databases) 和 显示 所 
有 表 (list-tables) 等 。 
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文件 (日 。 编 总 (E) 坦 在 (V) 选项 (D) 传输 (] 县 本 (S) 工具 (D。 帮 吉 (H) 
润 习 四 习 加 | 司 苞 航 | 吗 瑟 马 | 守 委 9? 回国 时 


warntng: Jekport)sePver's/saoop Tg. 6).°, 
Please Set SHBASE_HOME to the root 


does not lo Hcaralog jobs wi11 fail. 
installation. 


| 
18)03720 61 :41043 TNPD Saoop esqoop" Runnind sqoop Ver sfon: Tr 4,6 
Usage: sqoop COMMAND [ARGS] 


Available comnands: 
codegen Generate code to interact with database records 
ee hive-table Import a table definition into Hive 
val EvaTuare a SQL statament and displ2y the resulrs 
Export an HDFS directory to a database table 
List available commands 
por Import a table from a darabase ro HDFS 
import-al1-tables Import tables from a darabase to HDFS 
mport -mainframe Import datasets fron a mainfrane server to HOFS 
work with saved jobs 
List available darabases on a server 
List available tables in a darabase 
Herge results of incremenral inports 
Run a Standalone Sgoop metastore 上 


seaarabases 
1ist-tables 
merge 
metastore 


version Display version 1 


See sqoop help COWMAND For information on a specific command 
[roorehadcop01 sqoop-1.4.6]# 


就 寻 ssh2: AES-256-CTR 30, 30 30 行 112 列 VT100 。 大写 数字 


图 10-4 ”Sqoop 工具 指令 


在 执行 上 述 Sqoop 相关 指令 时 ,还 需要 指定 各 种 指令 参数 ,可 以 使 用 "sqoop help 
command” 指 令 来 进行 查看 。 如 查看 数据 导入 import 指令 使 用 方式 ,可 以 使 用 “sqoop help 
import” 指 令 进行 查看 ,效果 如 图 10-5 所 示 ( 指 令 参数 较 多 ,只 展示 部 分 截图 ) 。 


192168121134 .SecurecRT 
文件 人 2 查看 (V) 。 迁 硕 IO) 2 天 本 (S) 工具 (1) 职 助 (H) 


日 
Gora qoop heTp TDOFE ~ 
arning: er 3%.6).° /hbase doos not exist! hease imports wi11 fail. 
Bleae se¢ SoA boME 5o he roo of your Haase jnarallari 
vcatalog jobs wi11 fail, 
Accumu1o tmports wi1l faf1. 
Common ar gunent: 
Co Jbc-urt> SpeF ly ?pec connecr 目 


~-connection-manager <class-nane> a ey connection manager 


ame 
Spee: ry Connection 
paraneters file 


--connection-paran-file <properties-file> 


-driver <class-name> 
--hadoop-hone <hdir> 
--hadoop-mapred-home <dir> 
--help 

- 

--password <password> 
-password-alias <password-alias> 


--password-file <password-file> 


Manually specify JDec 
driver Class to use 
Override 
SHADOOP_MAPRED_HONE_ARG 
Override 


SHADOOP_MAPRED_HONE_ARG, 
Print usage instructions, 
Read password from console 
Set authentication 


Eredent’al provider 
password alias 
Set authentication 


ssh2: AES-256-CTR 32_ 30 32 行 129 列 VT100 大写 数字 


图 10-5 ”Sqoop 指令 使 用 帮助 


从 图 10-5 可 以 看 出 .使 用 “sqoop help import” 指 令 查 看 具体 指令 的 相关 参数 ,能 够 进 一 
步 帮助 我 们 使 用 具体 指令 。 

需要 说 明 的 是 ,在 执行 Sqoop 指令 进行 操作 时 可 以 指定 通用 参数 (Common 
arguments) 和 特定 参数 。 eat dh dae hapat adn dei 
于 对 Sqoop 的 具体 操作 实现 进行 功能 配置 ,并 且 通 用 参数 必须 位 于 特定 参数 之 前 。 
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10.4 ”Sqoop 数据 导入 


Sqoop 数据 导入 (import) 是 将 关系 数据 库 中 的 单个 表 数 据 导入 到 HDFS 和 Hive 等 具 
有 Hadoop 分 布 式 存储 结构 的 文件 系统 中 , 表 中 的 每 一 行 都 被 视 为 一 条 记录 ,所 有 记录 默认 
以 文本 文件 格式 进行 逐 行 存储 ,还 可 以 以 二 进 制 形式 存储 ,如 Avro 文件 格式 和 序列 文件 格 
式 (SequenceFile) 。 

为 了 演示 Sqoop 数据 导入 、 导 出 的 相关 操作 ,首先 在 hadoop01 机 器 上 安装 的 MySQL 
数据 库 中 创建 userdb 数据 库 , 字 符 集 设置 为 UTF-8, 接 下 来 创建 3 张 表 : emp、emp_add 和 
emp_conn, 并 导 人 相关 初始 化 数据 ,具体 userdb. sql 语句 如 文件 10-1 所 示 。 

文件 10-1 userdb. sql 
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在 完成 前 面相 关 数 据 的 准备 工作 以 及 Sqoop 数据 导入 的 介绍 后 , 接 下 来 ,就 针对 不 同 
Sqoop 数据 导入 的 需求 ,通过 具体 的 指令 演示 数据 导入 操作 。 


10.4.1 MySQL 表 数 据 导入 HDFS 


将 MySQL 表 数 据 导入 到 HDFS 中 ,具体 指令 示例 如 下 (读者 在 演示 时 需要 注意 更 新 
参数 值 ,另外 “\" 符 号 用 于 单个 指令 换行 ) 。 


上 述 指令 演示 了 将 MySQL 表 数 据 导 入 到 HDFS 中 的 基本 使 用 ,其 中 包含 了 多 个 参 
数 ,下面 对 其 中 的 参数 进行 具体 说 明 。 

。 一 connect: 指定 连接 的 关系 数据 库 ,包括 JDBC 驱动 名 .主机 名 、 端 口号 和 数据 库 名 
称 。 应 注意 的 是 ,Sqoop 数据 导入 导出 操作 需要 启动 Hadoop 集群 的 MapReduce 程 
序 ,所 以 这 里 连接 的 主机 名 不 能 是 localhost, 必 须 是 MySQL 数据 库 所 在 主机 名 或 
IP 地 址 。 
一 username: 用 于 指定 连接 数据 库 的 用 户 名 。 
一 password: 用 于 指定 连接 数据 库 的 密码 。 这 种 方式 直接 暴露 了 数据 库 连 接 密 码 ， 
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不 太 安全 ,所 以 可 以 使 用 -P 指令 代替 ,这 个 指令 会 以 交互 方式 提示 用 户 输入 密码 。 
一 target-dir: 指定 导入 到 HDFS 的 目录 ,代表 MySQL 数据 表 要 导入 HDFS 的 目标 
地 址 。 这 里 需要 注意 该 选项 所 指定 的 目录 的 最 后 一 个 子 目 录 不 能 存在 ,否则 Sqoop 
会 执行 失败 。 
一 table: 代表 要 进行 数据 导 人 操作 的 MySQL 源 数据 库 表 名 。 
。 一 num-mappers: 指定 map 任务 个 数 (默认 为 4 个 ,并 且 会 产生 4 个 结果 文件 ) ,可 简 
写 为 -m。 这 里 指定 map 任务 个 数 为 1 ,那么 只 会 启动 一 个 Map 程序 执行 相关 操作 ， 
并 只 会 生成 一 个 结果 文件 。 
执行 上 述 指令 后 ,Sqoop 操作 会 转换 为 MapReduce 任务 在 整个 集群 中 并 行 执行 ,作业 
执行 成 功 后 可 以 通过 HDFS UI 查看 数据 结果 文件 ,如 图 10-6 所 示 。 


| 食 | 自 + 全 4 四 巴 三 


(€ ) ® 19216812113430070/ewplorer ims/sqoopresut 


Browse Directory 


Group Size LastModified BlockSize -Name 


supergroup 0B 2018/9/3 下 和 干 11.39:10 128 MB _SUCCESS 
Supergroup 151B ”2018/9/3 下 午 11:39:10 128 MB part-m-00000 


图 10-6 导入 HDFS 目录 结果 


Hadoop, 2017. 


从 图 10-6 可 以 看 出 ,指定 的 MySQL 数据 库 表 emp 的 数据 成 功 导入 到 HDFS 中 。 用 
户 可 以 将 结果 文件 下 载 下 来 进行 查看 ,也 可 以 使 用 “hdfs dfs -cat /sqoopresult/part-m- 
00000” 指 令 查 看 导入 后 的 文件 内 容 , 效 果 如 图 10-7 所 示 。 


文人 入 (E] 喜 看 MV) 和 项 (O】 传 给 甩 本 (s) 工具 (L) 大助 
沟 习 回忆 交 | 名 区 的 | 器 号 马上 光 918 国 旧 


29oo8554 
99p3 manager ， 
prSOf 5 50000,TP 


[root@hadoopdl sqoop-1.4: 3 


ssh2: AES-256-CTR 7,30 11 行 , 92 列 VT100 大 写 数字 


图 10-7 导入 HDFS 目录 内 容 


从 图 10-7 可 以 看 出 ,导入 到 HDFS 指定 目录 下 的 文件 内 容 与 MySQL 数据 库 表 emp 
中 的 数据 保持 一 致 ,并 且 导入 后 的 数据 内 容 默 认 是 按照 逗号 进行 分 隔 的 。 
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10.4.2 增 量 导入 


当 MySQL 表 中 的 数据 发 生 了 新 增 或 修改 变化 ,需要 更 新 HDFS 上 对 应 的 数据 时 ,就 
可 以 使 用 Sqoop 的 增 量 导入 功能 。Sqoop 目前 支持 两 种 增 量 导 和 人 模式 : append 模式 和 
lastmodified 模式 。 其 中 , append 模式 主要 针对 INSERT 新 增 数据 的 增 量 导入 ; 
lastmodified 模式 主要 针对 UPDATE 修改 数据 的 增 量 导入 。 

在 进行 增 量 导入 操作 时 ,首先 必须 指定 “一 check-column” 参 数 , 用 来 检查 数据 表 列 字段 ， 
从 而 确定 哪些 数据 需要 执行 增 量 导入 。 例 如 ,在 执行 append 模式 增 量 导 入 时 ,通常 会 将 “-- 
check-column” 参 数 指定 为 具有 连续 自 增 功能 的 列 ( 如 主键 id) ; 而 执行 lastmodified 模式 增 
量 导 入 时 ,通常 会 将 “--check-column” 参 数 必 须 指定 为 日 期 时 间 类 型 的 列 ( 如 date 或 
timestamp 类 型 的 列 ) 。 

同时 ,还 可 以 为 增 量 导 人 操作 指定 “--last-value” 参 数 , 只 用 于 增 量 导入 last-value 值 以 
后 的 记录 数据 ,然后 存储 到 之 前 HDFS 上 相应 目录 下 的 一 个 单独 文件 中 。 否 则 ,会 导入 原 
表 中 所 有 数据 到 HDFS 上 相应 目录 下 的 一 个 单独 文件 中 。 

为 了 演示 增 量 导入 操作 ,首先 向 emp 表 添 加 新 数据 ,指令 如 下 所 示 。 


INSERT INIO “ep* VALLES ('1206', ‘itcast', "java dev’, '50000', PC'); 


接 下 来 ,就 针对 emp 表 数 据 的 新 增 变 化 执行 append 模式 的 增 量 导入 ,具体 指令 示例 
如 下 。 


$ sqpop import \ 
一 connect jdbc:mysql ://hadoop0l:3306/userdb \ 
—— usemane root \ 
—— password 123456 \ 
—- target— dir /scpopresult \ 
一 table ep\ 
—— nm meppers 1 \ 
— incremental append \ 
— check- olim id \ 
— last- valve 1205 


上 述 增 量 导入 的 操作 指令 与 10. 4. 1 节 所 示 的 指令 基本 相同 ,为 了 实现 增 量 导入 功能 ， 
新 添加 了 3 个 参数 。 其 中 ,“--incremental append” 指 定 了 使 用 增 量 导入 的 模式 为 append; 
“一 check-column id” 指 定 了 针对 表 emp 数据 的 id 主键 进行 检查 ;“--last-value 1205” 指 定 了 
针对 id 值 为 1205 以 后 的 数据 执行 增 量 导入 。 

执行 上 述 指令 后 ,从 HDFS UI 查看 增 量 导入 结果 ,如 图 10-8 所 示 。 

从 图 10-8 可 以 看 出 , 增 量 导 入 的 数据 在 指定 的 目标 目录 下 创建 了 一 个 新 的 结果 文件 
part-m-00001, 可 以 使 用 hadoop fs -cat 命令 查看 数据 ,如 图 10-9 所 示 。 

从 图 10-9 可 以 看 出 , 当 设 置 了 “--last-value 1205? 参 数 后 , 增 量 导 入 的 新 结果 文件 只 会 
把 指定 值 后 的 数据 添加 到 结果 文件 中 。 

这 里 只 演示 了 开发 中 常用 的 append 模式 的 增 量 导入 操作 ,读者 也 可 以 根据 说 明 进 行 另 
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Browsing HDFS 


(@ ) ® lzlealzLbBasoo7oreplorrhamieymeopreeok 


Browse Directory 


| /sqoopresult 


Permission Last Modified Replication BlockSize 
2018/9/3 下 午 11:39:10 3 128 MB _SUGCESS 


2018/9/3 下 午 11:39:10 3 128 MB part-m-00000 


2018/9/4 上 午 12:14:19 3 128 MB 


Hadoop, 2017. 


图 10-8 增 量 导入 结果 文件 


[图 19zaesl21134- SecureCRT 加 一 > 
文件 (编辑 (E) ”查看 (V) ”选项 (D) ”传输 () 脚本 (S) 工具 (D 。 帮助 (H) 
油 习 回 缠 凋 | 汪 配 的 | 吗 瑟 配 林 站 9 @@| 团 昌 


| 192.168.121.134 


ssh2: AES-256-CTR 3, 20 9 行 , 84 列 VT100 大写 数字 


图 10-9 增 量 导入 结果 文件 内 容 


一 种 lastmodified 模式 增 量 导入 的 操作 。 但 需要 注意 的 是 ,必须 保证 lastmodified 模式 增 量 
导入 的 数据 具有 日 期 时 间 类 型 的 列 字段 。 


10.4.3 ”MySQL 表 数 据 导 入 Hive 


如 果 Hadoop 集群 中 部 署 了 Hive 服务 ,并且 在 Sqoop 服务 的 sqoop-env. sh 文件 中 配 
置 了 Hive 的 安装 路 径 , 那 么 也 可 以 通过 Sqoop 工具 将 MySQL 表 数 据 导 入 Hive 表 中 。 
将 MySQL 表 数 据 导 入 到 Hive 文件 系统 中 ,具体 指令 示例 如 下 。 


$ spop inport \ 
一 connect jdbcamysqlL://hadoop0l:3306/userdb \ 
一 Usemame root \ 
—— password 123456 \ 
一 table ap aaa\ 
—hive- table itcast.emp_ act sp \ 
— create- hive- table \ 
一 hive-impcrt\ 
一 Dumrmeappers 1 


上 述 指令 中 ,“ 一 hive-table itcast. emp_add_sp” 用 于 指定 上 传 到 Hive 上 的 目标 地 址 为 
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itcast 数据 仓库 的 emp_add_sp 表 中 ,这 里 必须 提前 创建 对 应 的 itcast 数据 仓库 ;“--create- 

hive-table” 用 于 指定 自动 创建 指定 的 目标 Hive 表 ( 即 emp_add_sp 表 ) ,如 果 表 已 存在 , 则 执行 

失败 ;hive-import” 用 于 将 对 应 的 MySQL 表 ( 即 emp_add 表 ) 导 入 Hive 中 进行 数据 映射 。 
执行 上 述 指令 后 ,可 以 连接 到 Hive 客户 端 查看 Hive 数据 仓库 表 数 据 , 结 果 如 图 10-10 

所 示 。 

文 # 名 日 间 看 M， 连 员 O) 人 8 让 (5) 工具) 大 动 H 


渔 习 回 名 将 | 守 多 航 | 吗 马 马 可 贫 ?| 加 | 国 昌 


1192168.121134( | 上 >] 


Time traken: 0.72 seconds 
hive> select * from emp_add_sp; 


3884 vairi jublge, 


ssh2; AES-256-CTR 16，7 16 行 J09 列 VT100 大 写 数字 ， 


图 10-10 查看 导入 Hive 表 数 据 


从 图 10-10 看 出 ,Sqoop 成 功 将 MySQL 表 数 据 导 入 了 Hive 中 ,也 可 在 HDFS UI 查 
看 ,如 图 10-11 所 示 。 


(@ ) ® 192.168.121134:30070/explorer htmis /ser/hive /Warehouselitcast. db/em IE | 妆 | 自 如 会 帮 国 全 | 于 


Browse Directory 


| /userrhve/warehouseyitcastdb/emp_ add sp 


Group Size LastModified Replication BlockSize Name 


Supergroup 116B 2018/9/4 上 午 1222:12 3 128 MB part-m-00000 


Hadoop, 2017. 


图 10-11 Hive 表 文件 路 径 


从 图 10-11 可 以 看 出 ,Hive 表 数 据 是 一 个 MapReduce 的 结果 文件 ,从 命名 可 以 看 出 ， 
本 次 MapReduce 作业 只 进行 了 Map 阶段 。 


10.4.4 ”MySQL 表 数 据 子 集 导入 


前 面 几 节 针 对 MySQL 表 数 据 的 全 表 导 入 与 增 量 导入 进行 了 讲解 ,而 在 实际 业务 中 ,有 
时 候 开发 人 员 可 能 只 需要 针对 部 分 数据 进行 导入 操作 。 针 对 上 述 需 求 ,可 以 使 用 Sqoop 提 
供 的 “--where” 和 “一 query” 参 数 ,先进 行 数据 过 滤 , 然 后 再 将 满足 条 件 的 数据 进行 导入 。 
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1.“--where” 参 数 进行 数据 过 滤 


Sqoop 提供 的 “一 where” 参 数 主要 针对 简单 的 数据 过 滤 , 例 如 ,将 表 emp_add 中 ”city 一 
sec-bad” 的 数据 导入 HDFS 中 ,具体 指令 示例 如 下 。 


$ sgpqp import \ 
一 connect jdbc:mysql ://hadoopol:3306/userdb \ 
—— Usemane root \ 
一 Password 123456 \ 
一 Where "city= 'sec- bad'" \ 
一 target- dir /hereqnery \ 
一 table amp add \ 
——nm- mappers 1 


上 述 指令 中 ,在 MySQL 表 数 据 导入 HDFS 操作 的 基础 上 ,添加 了 “一 where "city 一 Sec- 
bad"”( 注 意 标 点 符号 ) 参 数 对 “city 二 sec-bad” 的 数据 进行 过 滤 ,然后 再 导入 到 HDFS 上 。 执 
行 完 指令 后 ,使 用 hadoop fs -cat /wherequery/part-m-00000 指令 在 指定 的 HDFS 的 / 
wherequery 路 径 下 查看 结果 文件 ,如 图 10-12 所 示 。 


| 伍 192.168.121.135 - SecureCRT 
文件 ( 编 岛 (E) 坦 看 (V) 远 项 (0) ”传输 月 本 (S) 工具 (帮助 (H) 
涪 习 器 匀 交 | 半 区 的 | 吕 号 马 | 困 做 和 1@ 国 旧 


1204,786,01d ci 
1205,720X,hitec 


ssh2: AES-256-CTR 。 5，20 11 行 , 92 列 VT100 大写 数字 


图 10-12 导入 HDFS 目录 内 容 


从 图 10-12 可 以 看 出 ,Sqoop 成 功 将 满足 "city 二 'sec-bad" 条 件 的 数据 导入 HDFS 中 。 
2.“--query” 参 数 进行 数据 过 滤 


Sqoop 提供 的 “--query” 参 数 主 要 针对 复杂 的 数据 过 滤 ,参数 后 面 可 以 添加 SQL 语句 ， 
更 方便 高 效 地 导入 数据 。 例 如 ,将 表 emp 中 *id 二 1203? 的 数据 的 id.name 和 deg 字段 导入 
HDFS 中 ,具体 指令 示例 如 下 。 


$ sqpop import \ 
一 connect jdbc:mysql://hadoop01:3306/userdb \ 
—— usemane root \ 
一 Password 123456 \ 
一 target- dir /hereqnery2 \ 
一 query 'SETECT id,name, deg EFCM ep WEEFE id> 1203 RD $ CCNDITICNS' \ 
— nm mppers 1 
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上 述 代码 示例 中 ,使 用 了 Sqoop 的 “--query” 参 数 进行 数据 过 滤 , 它 的 主要 作用 就 是 先 
通过 该 参数 指定 的 查询 语句 查询 出 子 集 数据 ,然后 再 将 子 集 数据 进行 导入 。 上 述 示例 中 ， 
$ CONDITIONS 相当 于 一 个 动态 占 位 符 ,动态 地 接收 经 过 滤 后 的 子 集 数据 ,然后 让 每 个 
Map 任务 执行 查询 的 结果 并 进行 数据 导入 。 

在 使 用 Sqoop 的 “一 query” 参 数 进行 数据 导入 时 ,要 特别 注意 以 下 事项 。 

(1) 如 果 没 有 指定 “--num-mappers 1”( 或 -m 1, 即 map 任务 个 数 为 1) ,那么 在 指令 中 必 
须 还 要 添加 “一 split-by” 参 数 。“ 一 split-by” 参 数 的 作用 就 是 针对 多 副本 map 任务 并 行 执行 
查询 结果 并 进行 数据 导入 ,该 参数 的 值 要 指定 为 表 中 唯一 的 字段 (如 主键 id) ; 

(2)“--query” 参 数 后 的 查询 语句 中 (如 示例 中 单 引 号 中 的 SELECT 语句 ) ,如 果 已 经 使 
用 了 WHERE 关键 字 , 那 么 在 连接 $CONDITIONS 占 位 符 前 必须 使 用 AND 关键 字 ; 否 
则 ,就 必须 使 用 WHERE 关键 字 连 接 ; 

(3)“--query” 参 数 后 的 查询 语句 中 的 $CONDITIONS 占 位 符 不 可 省 略 , 并 且 如 果 查 询 
语句 使 用 双 引 号 (") 进 行 包装 ,那么 就 必须 使 用 \$ CONDITIONS, 这 样 可 以 避免 Shell 将 其 
视 为 Shell 变量 。 

接着 ,就 执行 上 述 示 例 中 的 导入 指令 。 执 行 完 指令 后 ,可 以 使 用 “hadoop fs -cat 
/wherequery2/part-m-00000” 指 令 在 指定 的 HDFS 的 /wherequery2 路 径 下 查看 结果 文件 ， 
如 图 10-13 所 示 。 


192.168.121.134 - SecureCRT (eel | 


文件 (编辑 (E) ”查看 (V) ”选项 (O) 传 缩 (T 脚本 (S) 工具 (D 帮助 (H) 
JE | 村 和 贫 9 1@| 图 旧 

| 192.168.121.134 
[Re 和 
204 ,prasanth, php 
1205, ranthi nn “ 
408 a ava dev 

5p0 


GE 


ssh2: AES-256-CTR 5, 20 9 行 , 90 列 VT100 大写 数字 


图 10-13 导入 HDFS 目录 内 容 


从 图 10-13 可 以 看 出 ,Sqoop 成 功 将 满足 SELECT 查询 条 件 的 数据 的 指定 字段 信息 导 
人 HDFS 中。 


10.5 ”Sqoop 数据 导出 


Sqoop 导出 与 导 人 是 相反 的 操作 ,也 就 是 将 HDFS、Hive 和 Hbase 等 文件 系统 或 数据 
仓库 中 的 数据 导出 到 关系 数据 库 中 ,在 导出 操作 之 前 ,目标 表 必 须 存 在 于 目标 数据 库 中 , 否 
则 在 执行 导出 操作 时 会 失败 。 而 Hive 和 Hbase 的 数据 通常 都 是 以 文件 的 形式 存储 在 
HDFS 中 ,因此 ,本 节 就 重点 讲解 如 何 将 HDFS 数据 导出 到 MySQL 中 。 

为 了 方便 操作 ,这 里 就 将 10. 4. 1 节 中 导入 到 HDFS 上 /sqoopresult 目录 下 的 结果 文件 
part-m-00000 进行 导出 操作 。 首 先 在 本 地 MySQL 数据 库 中 (如 前 面 自 定义 的 userdb 数据 
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库 ) 提 前 创建 目标 表 结 构 , 该 表 结 构 需 要 与 HDFS 中 的 源 数据 结构 类 型 一 致 ,具体 emp_ 
export. sql 语句 如 文件 10-2 所 示 。 
文件 10-2 emp_export. sql 


1 TIFOP TRBIE IF EXISTS "ep esport 7 

2 CFEATE TAEIE ‘ep export ( 
“id” int(11) NOT NUE, 
meame varchar (100) DEFERDTIT NILL, 
“deg” varchar (100) TEFAULT NIL, 
“salary” int (11) IEFAUIT NODD 
“dept* vardhar (10) IEEADLT NILL, 
FRIMRY FEY (id) 

)7 


wmanw 


完成 上 面目 标 表 emp_export 的 创建 工作 后 , 接 下 来 就 将 HDFS 上 /sqoopresult 目录 下 
的 part-m-00000 文件 进行 导出 操作 ,具体 指令 示例 如 下 。 


$ spp export \ 
一 connect jdbc:mysql ://hadoop01:3306/userdb \ 
—— usemame root \ 
——password 123456 \ 
— table emp export \ 
一 epcrt- dir /sqpopresult 


上 述 数据 导出 的 操作 指令 与 10. 4. 1 节 所 示 的 导入 指令 基本 相同 ,主要 是 将 其 中 的 导入 
目录 参数 “--target-dir” 改 为 导出 目录 参数 -export-dir”。 
执行 完 指令 后 ,进入 MySQL 数据 库 , 查 看 表 emp_export 的 内 容 , 如 图 10-14 所 示 。 


[ 辑 192.168.121.134 - SecureCRT ET 本 二 
文件 月 妨 名 ( 吉 看 V) 迁 呐 0) 从 各 本 (9) 工具 (0 帮助 (H) 
油 习 加 习 况 | 名 区 的 | 吕 号 台 | 辐 做 和 91@ | 国 自 


| 192.168.121.134 


> Use user 


mys 
Reading table inforsation for completion of table and column names 
You can turn off this feature to get a quicker startup with -A 


Database changed, 
msql> select * from emp_export; 


一 一 二 一 一- 一 一 一 一 一 

1 id name | deg | salary | dept | 

二 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 二 一 十 

| 1204 rasarth | php dev | 30000 | ac | 

| 1205 | ranthi | admin | 20000 | Tp | 

| 1201 | gopal | manager | 50000 | TP 

| 1202 | manisha | proof reader | 50000 | TP 

| 1203 | khalil | php dev | 30000 | ac | 

| 1206 | itcast | java dev 1 50000 |ac | 

-~----- 二 一 一 一 一 一 一 一 一 一直 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 十 一 一 一 -十 

6 rows in set (0.00 sec) 器 
mysql> ~ 
就 绪 ssh2: AES-256-CTR ”19，8 19 行 , 98 列 VT100 。 大写 数字 


图 10-14 表 emp_export 


从 图 10-14 可 以 看 出 ,使 用 Sqoop 成 功 将 HDFS 的 数据 导出 到 MySQL 数据 库 中 。 
需要 说 明 的 是 ,本 章 对 Sqoop 工具 的 安装 配置 和 基本 使 用 进行 了 详细 讲解 ,而 Sqoop 
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还 支持 更 多 类 型 的 数据 导入 与 导出 功能 。 有 兴趣 的 读者 可 以 参考 Sqoop 官方 文档 ,具体 地 
址 http://sqoop. apache. org/docs/1. 4. 6/SqoopUserGuide. html。 


10.6 本 章 小 结 


本 章 讲解 了 Sqoop 数据 迁移 工具 的 相关 知识 。 首 先 ,对 Sqoop 的 相关 概念 进行 了 介 
绍 ; 接 着 ,对 Sqoop 的 安装 配置 进行 了 详细 讲解 ,并 先行 对 Sqoop 指令 进行 了 入 门 介绍 和 
帮助 说 明 ; 最 后 ,通过 具体 的 示例 演示 讲解 了 常用 的 Sqoop 数据 导入 和 导出 操作 。 通 过 本 
章 的 学 习 , 读 者 能 够 掌握 Sqoop 的 安装 配置 ,并 且 能 够 使 用 Sqoop 完成 常用 的 数据 迁移 
操作 。 


10.7 课 后 习题 


一 ,填空 题 

1，Sqoop 主要 用 于 在 和 之 间 进 行 传输 数据 。 

2，Sqoop 底层 利用 技术 以 方式 加 快 了 数据 传输 速度 ,并 且 具 有 较 好 
的 容错 性 功能 。 

3， 从 数据 库 导入 HDFS 时 ,指定 以 制 表 符 作为 字段 分 隔 符 参 数 是 

二 、 判 断 题 


1，Sqoop 是 关系 数据 库 与 Hadoop 之 间 的 数据 桥梁 ,这 个 桥梁 的 重要 组 件 是 Sqoop 连 

接 器 。 ( | 
2. Sqoop 从 Hive 表 导 出 MySQL 表 时 ,首先 需要 在 MySQL 中 创建 表 结 构 。 ( » 
3. 一 target-dir 参数 是 指定 HDFS 目标 目录 地 址 .因此 需要 提前 创建 目标 文件 。 


三 、 选择 题 


1. 以 下 ( ) 参 数 是 Sqoop 指令 ? (多 选 ) 
A. import B. output C. input D. export 
2. 下 列 语句 描述 错误 的 是 (。”)。 
A. 可 以 通过 CLI 方 式 、Java API 方 式 调用 Sqoop 
B.Sqoop 底层 会 将 Sqoop 命令 转换 为 MapReduce 任务 ,并 通过 Sqoop 连接 器 进行 
数据 的 导入 导出 操作 
C. Sqoop 是 独立 的 数据 迁移 工具 ,可 以 在 任何 系统 上 执行 
D. 如 果 在 Hadoop 分 布 式 集群 环境 下 ,连接 MySQL 服务 器 参数 不 能 是 localhos 或 
127.0.0. 1 
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四 、 简 答题 
简 述 Sqoop 导入 与 导出 数据 工作 原理 。 
五 、 编 程 题 


1. 利用 Sqoop 将 test 数据 库 中 的 user 表 中 id>5 的 用 户 导 入 到 HDFS 中 的 /user 目 
录 (user 表 字 段 : id,name) 。 
2. 利用 Sqoop 将 test 数据 库 中 的 emp 表 导 入 Hive 表 hive. emp_test 表 中 。 


第 11 童 
综 S| 合 项 目 一 一 网 ! 站 流量 日 志 数 据 分 析 系 统 


学 习 目 标 

。 熟悉 日 志 分 析 系 统 的 架构 。 

。 熟悉 系统 环境 搭建 的 步骤 。 

。 掌握 日 志 分 析 系 统 业务 流程 。 

。 掌握 人 均 浏览 页 面 模块 的 实现 方法 。 

本 章 通过 Hadoop 生态 体系 技术 实现 网 站 流量 日 志 分 析 系 统 , 来 帮助 读者 在 开发 中 学 
习 大 数据 体系 架构 的 开发 流程 ,以 及 利用 现 有 技术 解决 实际 生活 中 遇 到 的 问题 。 本 章 的 核 
心 是 在 掌握 网 站 流量 日 志 数 据 分 析 系 统 的 业务 流程 的 前 提 下 ,具备 独立 分 析 日 志 数 据 , 并 利 
用 MapReduce 技术 将 数据 提取 出 易于 分 析 的 数据 结构 ,以 及 使 用 Hive 完成 数据 分 析 ,计算 
出 需求 结果 的 能 力 。 


11.1 系统 概述 


11.1.1 系统 背景 介绍 


近年 来 , 随 着 社会 的 不 断 发 展 ,人 们 对 于 海量 数据 的 挖掘 和 运用 越 来 越 重 视 , 互 联网 是 
面向 全 社会 公众 进行 信息 交流 的 平台 ,已 成 为 了 收集 信息 的 最 佳 渠道 并 逐步 进入 传统 的 流 
通 领 域 。 同 时 ,伴随 着 大 数据 技术 的 创新 与 应 用 ,进一步 为 人 们 进行 大 数据 统计 分 析 提 供 了 
便利 。 

大 数据 信息 的 统计 分 析 可 以 为 企业 决策 者 提供 充实 的 依据 。 例 如 ,通过 对 某 网 站 日 志 
数据 统计 分 析 ,可 以 得 出 网 站 的 日 访问 量 , 从 而 得 出 网 站 的 欢迎 程度 ;通过 对 移动 APP 的 下 
载 数据 量 进行 统计 分 析 , 可 以 得 出 应 用 程序 的 受 欢 迎 程度 ,甚至 还 可 以 通过 不 同 维度 (区 域 、 
时 间 段 .下载 方式 等 ) 进 行进 一 步 更 深层 次 的 数据 分 析 , 为 运营 分 析 与 推广 决策 提供 可 靠 的 
参照 数据 。 

章 将 通过 已 学 的 Hadoop 相关 知识 ,对 某 个 网 站 产生 的 流量 日 志 数据 进行 统计 分 析 ， 
得 出 该 网 站 的 访问 流量 。 


11.1.2 系统 架构 设计 
在 大 数据 开发 中 ,通常 首要 任务 是 明确 分 析 目 的 , 即 想 要 从 大 量 数据 中 得 到 什么 类 型 的 
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结果 ,并 进行 展示 说 明 。 只 有 在 明确 了 分 析 目 的 后 ,开发 人 员 才能 准确 地 根据 具体 的 需求 去 
过 滤 数 据 ,并 通过 大 数据 技术 进行 数据 分 析 和 处 理 , 最 终 将 处 理 结果 以 图 表 等 可 视 化 形式 展 
示 出 来 。 

为 了 让 读者 更 清晰 地 了 解 本 章 系统 日 志 数据 统计 分 析 的 流程 及 架构 ,下 面 通 过 一 张 图 
来 描述 传统 大 数据 统计 分 析 的 架构 图 ,如 图 11-1 所 示 。 


Nginx [sim Nginx 


| 1 


Flume| | Flume| Flume 


HDFS 
Web 系 统 展示 


MapReduce 
Azkaban CC t 
Hive -| Sqoop 一 [vsod 


图 11-1 网 站 流量 日 志 分 析 系 统 框架 图 


从 图 11-1 可 以 看 出 ,网 站 流量 日 志 分 析 系统 的 整体 技术 流程 如 下 : 

。 首先 ,会 将 Nginx 服务 器 所 产生 的 日 志文 件 通过 Flume 采集 到 HDFS 中 ; 

。 其 次 ,开发 人 员 根 据 原始 日 志文 件 及 规定 数据 格式 定制 开发 MapReduce 程序 进行 

数据 预 处 理 ; 

。 接着 ,通过 Hive 进行 最 为 重要 的 数据 分 析 ; 

。 再 次 ,将 分 析 的 结果 通过 Sqoop 工具 导出 到 关系 数据 库 MySQL 中 ， 

。 最 后 ,通过 Web 系统 ,实现 数据 可 视 化 。 

在 整个 流程 中 ,系统 的 数据 分 析 并 不 是 一 次 性 的 ,而 是 按照 一 定 的 时 间 频 率 反 复 计算 ， 
因而 整个 处 理 链 条 中 的 各 个 环节 需要 按照 一 定 的 先后 依赖 关系 紧密 衔接 , 即 大 量 任务 单元 
的 管理 调度 。 所 以 ,项目 中 需要 添加 一 个 任务 调度 模块 ,系统 构架 中 采用 Azkaban 进行 任 
务 调度 ,如 定时 上 传 日 志文 件 (第 三 章 已 经 讲解 思路 ) ,定时 执行 MapReduce 程序 进行 数据 
清洗 等 。 


11.1.3 系统 预览 


点 击 流 是 指 用 户 在 网 站 上 持续 访问 的 轨迹 ,用 户 对 网 站 的 每 次 访问 均 包 含 了 一 系列 
的 点 击 动作 行为 ,如 打开 某 个 网 站 ,点 击 某 个 标签 等 ,将 这 些 点 击 行为 的 数据 串 成 一 条 线 
就 构成 了 点 击 流 数据 , 它 代表 了 用 户 浏览 网 站 的 整个 流程 。 这 些 信息 都 可 通过 网 站 日 志 
保存 下 来 ,分 析 这 些 数据 ,就 可 以 获知 许多 对 网 站 运营 等 至 关 重 要 的 信息 ,开发 人 员 采 集 
的 数据 越 全 面 , 分 析 就 能 越 精 准 。 本 章 将 计算 网 站 7 日 平均 PV 量 ,实现 效果 如 图 11-2 
所 示 。 
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DR a 日 和 PV 最 


图 11-2 七 日 人 均 浏 览 量 


11.2 模块 开发 一 一 数据 采集 

在 本 项 目 中 ,对 数据 采集 模块 的 可 靠 性 、 容 错 能 力 的 要 求 通 常 不 会 非常 严 苛 , 因 此 使 用 
通用 的 Flume 日 志 采集 框架 完全 可 以 满足 数据 采集 的 需求 。 
11.2.1 使 用 Flume 搭建 日 志 采集 系统 


Flume 采集 系统 的 搭建 非常 简单 ,需要 在 服务 器 上 部 署 Agent 节点 ,从 而 对 网 站 流量 
日 志 数 据 进行 采集 并 将 日 志文 件 汇聚 到 HDFS 中 。 搭 载 Flume 进行 日 志 采 集 的 使 用 已 经 
在 第 七 章 介绍 了 ,因此 这 里 只 介绍 此 次 采集 日 志 数 据 的 核心 参数 的 配置 ,如 下 所 示 。 


al.souroes=r] 

al.scurces.rl.type= TAIDIR 

引 .scurces.Il.channelscl 

al.sources.rl.positionEile= /var/log/flumeytaildir positicn.json 
al.scurces.Il. 人 legroups= 了 人 2 

引 .scurces.rl. 全 legroups.fl= /Var/log/testl/exanple.10og 
al.sources.rl.filegroups.f2 /var/]log/test2/.# ]og.# 


上 述 代码 为 核心 参数 的 配置 ,选择 Taildir 类 型 的 Flume Source, 它 可 以 监控 一 个 目录 
下 的 多 个 文件 新 增 和 内 容 追 加 ,实现 了 实时 读 取 记 录 的 功能 ,并 且 可 以 使 用 正则 表达 式 匹 配 
该 目录 中 的 文件 名 进行 实时 采集 。filegroups 参数 可 以 配置 多 个 ,以 空格 分 隔 ,表示 Taildir 
Source 同时 监控 了 多 个 目录 中 的 文件 ;positionFile 配置 检查 点 文件 的 路 径 ,检查 点 文件 会 
以 Json 格式 保存 已 跟踪 文件 的 位 置 ,从 而 解决 了 断 点 不 能 续 传 的 缺陷 。 

需要 说 明 的 是 ,上 述 核心 参数 的 配置 是 以 示例 的 方式 展示 了 进行 log 日 志 数 据 采集 的 
Flume source 的 配置 ,而 完整 的 日 志 采 集 方案 conf 还 需要 根据 收集 目的 地 (此 案例 的 数据 
收集 是 到 HDFS 中 保存 ) ,编写 包含 有 Flume source、Flume channel 和 Flume sink 的 完整 
采集 方案 conf 文件 。 
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11.2.2 日 志 信息 说 明 


根据 前 面 介绍 的 系统 架构 和 流程 ,通过 Flume 采集 系统 采集 后 的 网 站 流量 日 志 数 据 将 
会 汇总 到 HDFS 上 进行 保存 (这 里 假设 保存 目录 为 /webflow/logs/access. log)。 由 于 采集 
的 日 志 数 据 内 容 较 多 , 且 样 式 基本 类 似 ,这 里 选取 其 中 一 条 进行 展示 ,具体 数据 样 例如 下 : 


58.215.204.118 - - [18/Sep/2013:06:51:35 + 0000] "GET /wp- includes/js/jquery/ 

jgqnery.js?ver= 1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs- socketio— 

Chat/" "Wzilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefex/23.0" 

上 述 示例 就 是 Flume 采集 汇总 的 网 站 流量 日 志 数 据 样 例 ,用 户 每 访问 一 次 网 站 ,就 会 
留 下 一 条 访问 信息 ,下面 针 对 一 条 日 志 信 息 的 每 个 字段 进行 详细 说 明 , 如 表 11-1 所 示 。 


表 11-1 日 志 信 息 描 述 


日 志 数 据 片段 描 述 

58. 215. 204. 118 访客 IP 地 址 
访客 用 户 信息 

[18/Sep/2013:06:51:35 十 0000] 请 求 时间 
GET 请 求 方式 
/wp-includes/js/jquery/jquery. js?ver=1. 10. 2 请 求 URL 地 址 
HTTP/1.1 请 求 协议 
304 请 求 响应 码 
0 请 求 返回 的 数据 流量 
http://blog. fens. me/nodejs-socketio-chat/ 访客 来 源 URL 
Mozilla/5.0 (Windows NT 5. 1; rv:23.0) Gecko/20100101 Firefox/23.0 访客 浏览 器 信息 


11.3 模块 开发 一 一 数据 预 处 理 


11.3.1 分 析 预 处 理 的 数据 


在 收集 的 日 志文 件 中 ,通常 情况 下 ,不 能 直接 将 日 志文 件 进行 数据 分 析 , 这 是 因为 日 志 
文件 中 有 许多 不 合法 的 数据 ,如 以 下 两 条 数据 : 


58.215.204.118 —— [18/Sep/2013:06:52:33 + 0000] - 400 0 -一 
101.226.68.137 —— [18/Sep/2013:06:52:36 + 0000] / HITP/1.1 20 20— 
INSEod- Monitor/1.0 


上 述 日 志 数 据 在 网 络 传输 时 发 生 了 数据 丢失 ,针对 这 种 数据 需要 将 其 过 滤 去 除 ,数据 预 
处 理 流程 如 图 11-3 所 示 。 

从 图 11-3 可 以 看 出 ,数据 预 处 理 阶段 主要 是 过 滤 不 合法 的 数据 ,清洗 出 无 意义 的 数据 
信息 ,并 且 将 原始 日 志 中 的 数据 格式 转换 成 利于 后 续 数 据 分 析 时 规范 的 格式 ,根据 统计 需 
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数 | [用 | | 会 | [中 

入 | 加 -| 全 上 -| 语 | -| 全 | | 芝 
1 

旦 | | 洗 | | 别 | 别 | | 充 | | 化 


用 户 会 话 文件 
图 11-3 数据 预 处 理 流程 


求 ,筛选 出 不 同 主题 的 数据 。 

在 数据 预 处理 阶 段 ,主要 目的 就 是 对 收集 的 原始 数据 进行 清洗 和 筛选 ,因此 使 用 前 面 学 
习 的 MapReduce 技术 就 可 以 轻松 实现 。 在 实际 开发 中 ,数据 预 处 理 过 程 通常 不 会 直接 将 不 
合法 的 数据 直接 删除 ,而 是 对 每 条 数据 添加 标识 字段 ,从 而 避免 其 他 业务 使 用 时 丢失 数据 。 

另外 ,此 次 数据 预 处 理 只 是 清洗 和 筛选 不 合法 的 数据 信息 ,会 读 取 每 行 日 志文 件数 据 并 
最 终 输 出 一 条 数据 ,不 会 进行 其 他 操作 ,因此 在 使 用 MapReduce 技术 进行 处 理 过 程 中 ,只 会 
涉及 Map 阶段 ,不 会 涉及 Reduce 阶段 。 在 默认 情况 下 ,ReduceTask 值 为 1, 因 此 在 主 运 行 
函数 中 ,需要 设置 Job. setrNumReduceTasks(0)。 


11.3.2 实现 数据 的 预 处 理 


从 图 11-1 网 站 流量 日 志 分 析 系 统 框架 图 中 可 知 ,在 数据 处 理 环节 ,需要 使 用 
MapReduce 技术 进行 数据 预 处 理 , 作 用 是 将 复杂 且 没 有 具体 格式 的 数据 进行 规范 化 。 
此 ,我 们 创建 一 个 Maven 项 目 实 现 对 日 志 数 据 的 预 处 理 。 


1. 创建 Maven 项 目 ,添加 相关 依赖 


首先 ,使 用 项 目 开 发 工具 (如 Eclipse) 创 建 一 个 Maven 项 目 , 选 择 jar 打包 方式 ,如 
图 11-4 所 示 。 
[全 ww ee | 


New Maven project 
Configure project 


Artifact 


Group ld: cnitcast .| 


Artifact Id: HadoopDataReport 和 
Version: 0.0.1-SNAPSHOT 二 
Packaging: jar - 


@ sca] Ne | [Eriche] cre 


图 11-4 创建 Maven 工程 
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接 下 来 添加 编写 MapReduce 程序 所 需 的 jar 包 以 及 相关 插件 ,打开 pom. xml 文件 添加 
内 容 如 文件 11-1 所 示 。 
文件 11-1 pom. xml 


1 <project xmlns=http://raven.apache.org/PM/4.0.0 


2 mlns:xsi= "http://www.w3.org/2001/XMLSchena— instance" 
3 xsi:schemarocation= "http://maven.apache.org/POM/4.0.0 
4 http://maven.apache .org/xsd/maven— 4.0.0.xsd"> 

己 <ImdelVersicn> 4.0.0< /mdelVersion> 

6 < gropId> an.itcast< /groupId> 

好 < artifactId> HadbqppataReport< /artifactId> 

8 <Version> 0.0.]- SNRPSHOT< /version> 

9 < dependencies> 

10 < dependency> 

1 < gropld> org. Padte .hadoop< /groupI 中 

12 < artifactId> hadbap- commcnc /artifactId> 

B <Versicn> 2.7.4c /versicn> 

14 < /dependency> 

5 < dependency> 

16 < gropld> org.apache.hadoop< [groupId> 

1 < artifactId> hadbap- hrifs< /artifactId> 

18 <Versicn> 2.7.4c /versicn> 

19 < /cependency> 

20 < dependency> 

2 < gopld> org.apacte .hadoop [groupId> 

2 <artifactTdy hadbaqp- client< /artifactId> 

23 <Versicn> 2.7.4c /versicn> 

24 < /dependency> 

5 < dependency> 

26 < gropld> org.apace.hadoop /gropld> 

a < artifactId> hadbap- mepreduce— client- core< /artifactId> 
28 <version> 2.7.4c /versicn> 

29 < /dependency> 

30 < /dependencies> 

31 <build> 

了 2 <plugins> 

3 <Phgim> 

34 < gropld> org.apache meven.plugins< /gropId> 
35 <artifactId> maven- compiler— Pluginc /artifactId> 
36 < versicon> 3.2< /versicn> 

Er) <cnfiguration> 

38 < source> 1.8< /source> 

39 <target>1.8c /target> 

4 <encoding> UIF- sc /encoding> 

4 < /cnfiguraticn> 

2 <blngin> 

4 < /plugins> 

44 </build> 

45 < /project> 
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配置 完成 后 , 右 击 项 目 选择 Maven 选项 , 单 击 *Update Project” 按 钮 ,完成 项 目 工程 的 
搭建 。 


2. 创建 JavaBean 对 象 .封装 日 志 记 录 


收集 的 日 志 数 据 中 ,每 一 行 代表 一 条 日 志 记录 ,并 且 包 含有 多 个 用 空格 分 隔 的 字段 信 
息 ,为 了 方便 后 续 数 据 处 理 ,可 以 创建 一 个 JavaBean 对 象 对 每 条 日 志 数 据 进行 封装 。 

通过 前 面 的 分 析 , 同 时 结合 实际 开发 需求 以 及 日 志 数据 字段 信息 设计 出 一 个 对 应 的 名 
为 WebLogBean. java 的 JavaBean 对 象 , 如 文件 11-2 所 示 。 

文件 11-2 WebLogBean. java 
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38 // 重 写 testring0 方 法 ,使 用 时 ve 软 认 分 隔 符 进行 分 隔 ,为 后 期 导入 Hive 表 提供 便利 

89 override 

9 ”public string tostring0 { 

qa Stringpuilder sb= new StringBuilder0y 

哇 .arpend (this.valid); 

% sb.AFpend (\ 001") .append (this.getRenote acdtir0)7 

% sb.AFpend (\ 001") .append (this.getRenote user (0); 

E33 sb.Fpend (\ 001") .append (this.getTine local 0)7 

% .aFpend (\001") .append (this .gstReqpest 0); 

Exh sb,.aFpand (\001") .append (this .gatstatus 0); 

9 由 ,append(m001m .append (this.gstpody bytes_sent 0); 

9 由 ,append(m001m .append (this.gstHttp referer()); 

100 sb.aFpend (\ 001") .append (this .getHttp User agert0)7 

101 retum 风 ,tcstring07 

102 } 

103 // 序 列 化 方法 

104 Goverride 

105 Public void readFields (DataInput in) throws ICExcepticn { 

106 this.valid= in.reacBoolean07 

107 this.remote_ adr= in.readUTF 0; 

108 this.remte user= in.readUTF (0; 

109 this.time local= in.readUIF 07 

110 this.request= in.readJIF 0; 

11 this.status= jn.readOTF 07 

112 this.body bytes_sentb= in.readJIF (); 

113 this.http_referer= in.readDTE 07 

114 this.http User agent= jin.reacDTFO07 

15 } 

16 // 反 序列 化 方法 注意 与 序列 化 方法 顺序 保持 一 致 ) 

17 override 

18 ”public void write (Dataoutput out) throws ICExcepticn { 

119 ut.writepoolean (this.valid); 

120 out.writeOTg onll== remte_ addr7™:remote adir); 
oriteUTE (null= = remote user?"™":remote user)} 
ct.WriteUTE (null= = time local?™:tine local); 
oriteUTF (ull= = request?"™":request) } 

124 OH.WriteUTE ull== status?"™":status)} 

15 at.WriteUTF (null= =body bytes_sentzm:body bytes_sent); 

126 ott.writeUT onll==htbp_refererzmshttp referer); 

127 oriteOTE (ull== http user_ agent?zm :http user agent)7 

128 } 

129} 


文件 11-2 是 将 日 志 数 据 进 行 封装 ,实现 Hadoop 序列 化 接口 Writable, 便于 在 
MapReduce 程序 中 解析 日 志 数 据 信 息 并 封装 成 对 象 传递 数据 ,该 方法 重 写 toString() 方 法 
并 使 用 Hive 默认 分 隔 符 “\001” 进 行 分 隔 . 便 于 后 期 导入 Hive 表 进 行 数据 分 析 , 最 后 重 写 
了 序列 化 方法 和 反 序 列 化 方法 , 反 序 列 化 方法 的 字段 顺序 必须 与 序列 化 方法 保持 一 致 。 
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3. 编写 MapReduce 程序 ,执行 数据 预 处 理 


创建 JavaBean 实体 类 后 , 接 下 来 就 开始 编写 MapReduce 程序 ,进行 数据 预 处 理 。 代 码 
如 文件 11-3 所 示 。 
文件 11-3 WeblogPreProcess. java 
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4 */ 
三 Qoverride 
46 Protected void setup (Context context) throws IOException { 
Ey Fages.addi("/about"); 

Pages.add ("/black— ip- list/"); 
49 Pages.add ("/cassandra— clustor/"); 
EY Fages.add ("/finanoe— thive- repurchase/"); 
9 Fages.add ("/hadbop- family- roadrap/™); 
品 Feges.add("/hadbop- hive intro/"); 
号 Fages.add("/hadbop- zookeeper- intro/"); 
Ed Fages.add ("/hadbop- mahout— roackrap/"); 
E23 } 
56 hex 
9 * 重 写 map0 方 法 ,对 每 行 记录 重新 解析 转换 并 输出 
58 */ 
59 Goverride 
@ Frotected void mep (cngritable key, Text value, Context oontext) 
a throws IOExcepticn，InterrptedEycepticnf 
@ /| 获取 一 行 数据 
63 String line= value.tostring()} 
的 // 调 用 解析 类 WEELogparser 解 析 日 志 数 据 ,最 后 封装 为 REELogeean 对 象 
6 WebLogBean webLogBearr WebLogParser ,parser (line);} 
66 if (webiogpean I=mall) { 
gq /过滤 js/ 图 片 /css 等 静态 资源 
6 WebLogParser. filtSstaticResouroe (webLogpean, pages); 
6 .set (webLogpean.tostring 0)7 
70 Context .write (k, 由 7 
n } 
2 } 
B } 
74} 


在 上 述 代码 中 ,为 了 简化 开发 步骤 ,将 map() 方 法 和 运行 主 类 写 在 了 
WeblogPreProcess 类 中 , 它 的 作用 是 处 理 原始 日 志 , 把 日 志 数 据 解 析 成 符合 业务 规则 的 数 


据 格 式 。 其 中 setup() 方 法 仅 在 执行 map() 方 法 之 前 被 调用 一 次 ,通常 用 了 


F 初始化 加 载 数 


据 , 存 储 到 MapTask 内 存 中 。 在 本 项 目 中 的 作用 是 对 比 日 志 数 据 ,如 果 用 户 请 求 的 资源 路 


径 是 Set 集合 中 的 值 (被 统计 页 面 ), 那 么 就 表示 用 户 请 求 的 是 合法 资源 , 关 
识 , 供 后 续 分 析 处 理 。 


# 添加 相应 的 标 


另外 ,在 map() 方 法 中 ,定义 WebLogParser 类 ,用 于 解析 读 取 每 行 日 志 信 息 , 并 将 解析 


结果 封装 为 WebLogBean 对 象 , 日 志 解 析 代 码 如 文件 11-4 所 示 。 
文件 11-4 WebLogParser. java 


jnmport java.text.EarseExoepticny 
jimport javatext.SimpleDategormaty 
import javautil.Iocaley 

import java.util.set; 

Public class Webrogparser { 


u mwN P 
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5 Set< String> pages) { 
58 证 (tpages.oontains (bean.getRequest 0)) { 

59 bean.setValid (false); 

@ } 

a } 

@ hx 

[3 * 格式 化 时 间 方 法 

区 人 

5 pblic static string fomatpate (String time local) { 
6 try{ 

(yh Tetum df2.fomat (df1.parse (time local)); 
6 } catch (Parsegxcepticn e) { 

69 retum nm]7 

7 

1 

2} 


上 述 代 码 首先 定义 了 时 间 格 式 , 用 于 转换 日 志 数 据 中 的 时 间 格 式 ,随后 将 日 志 数 据 切 
割 ,逐条 保存 在 WebLogBean 对 象 中 ,根据 用 户 访问 的 URL 来 判断 数据 的 合法 性 ,添加 标 
识字 段 。 

在 实际 工作 应 用 开发 中 ,因为 日 志文 件 被 最 终 采 集 到 HDFS 上 ,所 以 我 们 需要 将 编写 
好 的 MapReduce 程序 部 署 在 Hadoop 集群 所 在 的 操作 系统 中 ,并 定时 执行 该 程序 ,以 及 
FileInputFormat 要 执行 的 文件 路 径 也 必须 是 HDFS 文件 路 径 。 因 为 本 案例 中 要 处 理 的 原 
始 数据 量 较 小 ,为 了 后 续 方 便 、 快 速 演示 效果 ,所 以 该 项 目 使 用 本 地 模式 运行 。 只 需要 在 编 
写 MapReduce 程序 完成 后 ,在 本 地 D:/weblog/input 目录 中 放 入 将 要 清洗 的 日 志文 件 ,再 
去 执行 程序 即 可 。 

执行 成 功 后 ,在 相应 的 output 目录 中 查看 part-m-00000 结果 文件 ,如 图 11-5 所 示 。 


GB Di\weblog\output\part-m-00000 - Notepad+ + [Administrator] 
文件 (F) “编辑 (E) 搜索 (S) 视图 (V) 编码 (N) 语言 (设置 () 工具 (O) 宏 (M) 运行 (R) 播 件 (P) 窗口 W ? x 
o 轨 固 司 615 全 | 省 儿 用 | 2 CI 的 知 | * *| 马 马 | 志 1 图 口 国 及 局 区 | 回回 四 加 局 | 此 
下 weewooo 盏 | 
1 falseEEB194.237.142.21GE-EEB2013-09-18 06:49:18@/wp-content/uploads/2013/07/rstudio-git3.pn ~ 
2 falseBEN163.177.71.12859-ESD2013-09-18 06:49:33689/EeD2008520889"-" "DNsPod-Monitor/1.0"” 国 
3 falseEBe163.177.71.12889- BEB2013-09-19 06:49:366E/ SED20085320859" "DNSPod-Monitor/1.0" 
4 falseEGB101.226.68.137GGH- ESB2013-03-18 06: Ee/ EEB200EGB20| "DNSPod-Monitor/1.0" 
5 falseD101.226.68.137GHD-BB2013-09-18 06: Sen/ SSR2 00 aa2 0 "DNsPod-Monitor/1.0" 
6 false@n60.209.6.1568-EBD2013-09-18 06:49 /wp-content/uploads/2013/07/rcassandra .png@ 
7 false@l222.68.172.190G9- ED2013-09-19 06:49:57@/images/my.jpgE200889199396 "http://www - 
‘| 而 ; 


length:5,234,804 lines;27,909 In:1 Col:1 Sel:0|0 Unix (LP) 


Normal text file 
上 


图 11-5 part-m-00000 


从 图 11-5 可 以 看 出 ,每 个 字段 之 间 使 用 */001? 分 隔 符 进 行 分 隔 ( 使 用 Notepad 十 十 文 
本 编辑 器 打开 文件 ,“/001” 分 隔 符 会 以 “SOH” 字 符 显 示 ; 使 用 普通 的 txt 记事 本 打开 文件 ， 
“/001” 分 隔 符 是 不 可 见 的 。 因 此 ,在 不 同文 本 工具 打开 文件 .“/001” 分 隔 符 显示 不 同 ,可 能 
会 显示 乱码 ,但 是 , 它 不 会 影响 后 续 操 作 ) ,false 字段 代表 当前 数据 不 合法 (缺失 数据 、 请 求 
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地 址 不 匹配 等 ) ,日 期 格式 的 转换 也 便于 后 期 进行 数据 分 析 , 至 此 初步 的 预 处 理 流程 就 完 
成 了 。 

数据 预 处 理 是 根据 业务 需求 ,生成 符合 业务 逻辑 的 结果 文件 ,因此 不 存在 标准 的 程序 代 
码 , 读 者 可 以 根据 自身 需求 去 拓展 MapReduce 程序 以 解决 实际 的 业务 问题 。 


11.4 模块 开发 一 一 数据 仓库 开发 


数据 预 处 理 完成 后 ,就 需要 将 MapReduce 程序 的 输出 结果 文件 上 传 至 HDFS 中 ,并 使 
用 Hive 建立 相应 的 表 结构 与 上 传 的 输出 结果 文件 产生 映射 关系 。 


11.4.1 设计 数据 仓库 


针对 网 站 流量 日 志 分 析 系 统 项 目 , 可 以 将 数据 仓库 设计 为 星 状 模式 ,使 用 一 张 事实 表 
ods_weblog_origin( 俗 称 窄 表 ) 来 存储 由 MapReduce 清洗 之 后 的 数据 , 表 结 构 如 表 11-2 
所 示 。 


表 11-2 ods_weblog_origin 


字 段 描 述 字 段 描 述 
valid 是 否 有 效 status 响应 码 
remote_addr 访客 IP body_bytes_sent 响应 字 节 数 
remote_user 访客 用 户 信息 http_referer 来 源 URL 
time_local 请 求 时 间 http_user_agent 访客 终端 信息 
request 请 求 URL 


从 表 11-2 可 以 看 出 ,上 述 字 段 即 为 MapReduce 初步 预 处 理 后 的 数据 字段 。ods_ 
weblog_origin 表 名 前 级 ods(Operational Data Store) 是 指 操作 型 数据 存储 ,作用 是 为 使 用 
者 提供 当前 数据 状态 , 且 具 有 及 时 性 、 操 作 性 和 集成 性 的 全 体 数据 信息 。 

ods_weblog_origin 表 是 指 对 应 原始 数据 的 表 , 字 段 与 数据 产生 映射 ,虽然 该 表 记 录 了 
全 部 数据 ,但 是 并 不 利于 数据 分 析 , 为 了 细 化 分 析 数 据 , 通 常会 把 窄 表 中 融合 各 种 信息 的 数 
据 进行 分 隔 ,提取 出 新 字段 ,将 窗 表 分 解 为 宽 表 ,信息 更 加 详细 ,如 将 ods_weblog_origin 表 
中 time_local 字段 拆 分 为 dw_weblog_detail 中 的 month 和 day 等 字段 ,便于 后 续 分 析 。 因 
此 还 需要 构建 上 述 内 容 更 细 化 的 数据 表 dw_weblog_detail( 俗 称 宽 表 ), 表 结构 如 表 11-3 
所 示 。 

从 表 11-3 可 以 看 出 ,dw_weblog_detail 表 将 数据 进一步 细 分 ,方便 后 期 进行 数据 分 析 。 
表 名 前 级 dw(data warehouse) 即 数据 仓库 , 它 是 面向 主题 的 ,反映 历史 数据 变化 ,用 于 支撑 
管理 决策 的 事实 表 。 

完成 事实 表 设 计 后 ,结合 实际 业务 需求 设计 维度 表 , 如 本 章 案例 主要 讲解 日 均 PV 量 
(page visits, 页 面 浏览 量 ) ,因此 ,对 应 设计 的 维度 表 如 表 11-4 所 示 。 
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表 11-3 dw_weblog detail 


字 肌 描 述 字 段 描 述 
valid 是 否 有 效 request 请 求 URL 整 串 
remote_addr 访客 IP status 响应 码 
remote_user 访客 用 户 信 息 body_bytes_sent 响应 字 节 数 
eol 请 求 完整 时 间 rE 来 源 URL 
daystr 访问 日 期 ref_host 来 源 的 host 
timestr 访问 时 间 ref_path 来 源 的 路 径 
month 访问 月 ref_query 来 源 参 数 query 
day 访问 日 ref_query_id 来 源 参数 query 值 
hour 访问 时 http_user_agent 客户 终端 标识 

表 11-4 t_avgpv_num 
字 段 描 述 
dateStr 日 期 
avgPvNum 平均 PV 值 


表 11-4 结构 简单 ,这 里 只 设计 了 日 期 和 平均 PV 值 两 个 字段 ,读者 也 可 以 自行 设计 相 
关 业 务 ,如 根据 IP 分 析 用 户 所 在 的 地 域 制定 访客 地 域 维度 ,根据 客户 终端 标识 制定 访客 终 
端 维度 等 多 角度 进行 数据 分 析 。 


11.4.2 实现 数据 仓库 


ETL(Extract-Transform-Load) 是 将 业务 系统 的 数据 经 过 抽取 、 清 洗 转 换 之 后 加 载 到 
数据 仓库 维度 建 模 后 的 表 中 的 过 程 ,目的 是 将 企业 中 的 分 散 、 零 乱 、 标 准 不 统一 的 数据 整合 
到 一 起 ,为 企业 的 决策 提供 分 析 依 据 。 

本 项 目的 数据 分 析 过 程 是 在 Hadoop 集群 上 实现 ,主要 通过 Hive 数据 仓库 工具 ,因此 
需要 将 采集 的 日 志 数 据 经 过 预 处 理 后 ,加 载 到 Hive 数据 仓库 中 ,从 而 进行 后 续 的 分 析 过 
程 。 下 面 针 对 11. 4. 1 节 所 设计 的 数据 仓库 结构 ,创建 步骤 如 下 。 


1. 创建 数据 仓库 


启动 Hadoop 集群 后 ,在 主 节点 hadoop01 上 启动 Hive 服务 端 ,然后 在 任意 一 台 从 节点 
使 用 beeline 远程 连接 至 Hive 服务 端 ,创建 名 为 "weblog” 的 数据 仓库 ,命令 如 下 所 示 。 


hive> create database weblog; 


创建 成 功 后 使 用 use 命令 和 weblog 数据 仓库 ,然后 按照 数据 预 处 理 生 成 的 结果 文件 和 
11.4.1 节 介绍 的 项 目 数 据 仓库 设计 ,创建 相应 表 结 构 。 
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2. 创建 表 


创建 原始 日 志 数 据 表 ods_weblog_origin( 使 用 Hive 默认 分 隔 符 ) 并 使 用 日 期 进行 分 
区 ,命令 如 下 所 示 。 


创建 完毕 后 使 用 命令 *show tables" 查 看 当前 数据 仓库 创建 的 数据 表 , 结 果 如 图 11-6 所 示 。 


cond5) 0 
10000> ate table od: bl igil 
ho op 1 a a ys ls_weblog_origin( 


图 11-6 weblog 数据 仓库 表 信 息 


3. 导入 数据 


在 导入 ODS 层 数 据 时 .需要 将 本 地 MapReduce 生成 的 结果 文件 (/weblog/output/ 
part-m-00000) 先 上 传 至 虚拟 机 中 (如 /root/weblog/), 然 后 再 上 传 至 HDFS 目录 中 (如 / 
weblog/preprocessed) ,具体 操作 命令 如 下 所 示 。 


第 11 章 “综合 项 目 一 网 站 流量 日 志 数据 分 析 系统 


数据 文件 准备 完毕 ,就 可 以 加 载 数据 了 ,使 用 命令 如 下 所 示 。 


hive > load data irpath "weblog/preprocessed/' werwrite into table 
ods Wweblog origin partition (datestr= "20130918"'); 


由 于 实验 数据 是 2013-09-18 至 2013-09-24 这 7 天 的 数据 ,因此 可 以 在 加 载 数据 时 直接 
添加 分 区 。 通 常情 况 下 ,开发 人 员 会 根据 产品 经 理 的 需求 ,进行 日 、 周 、 月 、 季 度 以 及 年 度 的 
时 间 维 度 进行 数据 分 析 。 分 区 便于 在 今后 的 数据 量 大 幅 增长 时 ,可 以 针对 日 期 字段 快速 计 
算 ,并 且 规 范 了 开发 步骤 。 

为 了 验证 数据 是 否 导入 成 功 , 使 用 select 语句 查看 表 数 据 条 数 , 如 果 返 回 数据 信息 , 则 
证 明 数 据 加 载 成 功 ;否则 需要 查看 分 隔 符 是 否 匹配 ,文件 目录 是 否 正确 等 细节 问题 。 

在 实际 工作 应 用 开发 中 ,Hive 加 载 数据 通常 是 写 在 脚本 中 ,并 配置 Azkaban 定时 运行 ， 
但 是 执行 时 间 点 需 在 数据 预 处 理 之 后 ,因此 在 实际 开发 中 需要 注意 多 个 方面 考虑 系统 架构 
的 稳定 性 。 


4. 生成 明细 表 


整个 数据 分 析 的 过 程 是 按照 数据 仓库 的 层次 分 层 进行 ,总 体 来 说 ,是 从 ODS 层 原 始 数 
据 中 整理 出 一 些 中 间 表 (如 后 续 分 析 时 ,将 原始 数据 中 的 时 间 、URL 等 非 结 构 化 数据 制定 结 
构 化 抽取 ,将 各 种 字段 信息 进行 细 化 ,形成 明细 表 ) ,并 在 中 间 表 的 基础 之 上 统计 出 各 种 指标 
数据 。 明 细 表 的 创建 与 加 载 数据 ,具体 操作 步骤 如 下 所 示 。 

(1) 首先 创建 明细 表 ods_weblog_detail ,命令 如 下 所 示 。 


hive > create table ods weblog detail( 


Valid string, 一 有 效 标识 
remte adir string, 一 来 源 下 
Tempte user string, 一 用 户 标识 
time local string 一 访问 完整 时 间 
daystr string, 一 访问 日 期 
timestr string, 一 访问 时 间 
month string 一 访问 月 

Gy string, 一 访问 日 

hour string, 一 访问 时 
Teqnest string, 一 请 求 的 URL 
status string, 一 响应 码 

body bytes sent ”string, 一 传输 字 节 数 
http referer string, 一 来 源 UEL 

ref host string, 一 来 源 的 host 
ref path string, 一 来 源 的 路 径 
Ief qery string, 一 来 源 参 数 qery 


ref qhery id string, 一 来 源 参数 qhery 的 值 
http user agent string -- 客 户 终端 标识 


明细 表 数 据 是 由 ods_weblog_origin 表 数 据 中 的 URL 字段 和 时 间 字 段 按照 业务 需求 


| 
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切 分 字段 组 成 。 
(2) 创建 临时 中 间 表 t_ods_tmp_referurl ,解析 客户 端 来 源 地 址 字段 ,命令 如 下 所 示 。 


hive > create tablet ods tmp refenrl as 
SETECT a.* ,b.* 
EECM ods_ weblog origin a IATERAL VIEW 
Parse url tiple (regexp replace http referer, \™, ™), 
HOST", "PATH', "QJERY', ‘QERY:id') b as host, path, qhery, qery id; 


上 述 命令 中 ,LATERAL VIEW 一 般 与 用 户 自 定义 表 生 成 函数 结合 使 用 , 它 能 够 将 一 
列 数 据 拆 成 多 行 数据 ,在 此 基础 上 可 以 对 拆 分 后 的 数据 进行 聚合 处 理 。 
(3) 创建 临时 中 间 表 t_ods_tmp_detail, 解 析 时 间 字 段 ,命令 如 下 所 示 。 


hive > create table t ods tmp detail as 
Select b. * ,substring (time local,0,10) as daystr, 
stbstring (time local,12) as trstr, 
Substring (time local,6,2) as month, 
Substring (time local,9,2) as day, 
Substring (time local,11,3) as hour 
framt ods tmp referurl by 


上 述 命令 使 用 substring 函数 将 time_local 字段 拆 分 , 当 创建 成 功 后 ,就 可 以 通过 查询 
这 两 张 临时 表 数 据 插入 到 明细 表 中 ,并 按照 日 期 字段 动态 分 区 。 

(4) 由 于 Hive 默认 情况 下 无 法 进行 动态 分 区 ,因此 加 载 数据 之 前 ,需要 修改 默认 动态 
分 区 参数 ,命令 如 下 所 示 。 


hive > set hive.exec.dynamic.partitior= true; 
hive > set hive.exec.dynamic.partition.mode= nonstricty 


上 述 命 令 中 ,hive. exec. dynamic. partition 指 是 否 开启 动态 分 区 功能 ,默认 为 false, 使 
用 动态 分 区 时 ,该 参数 必须 设置 成 true; hive. exec. dynamic. partition. mode 指 动态 分 区 的 
模式 ,默认 为 strict, 表 示 必 须 指定 至 少 一 个 分 区 为 静态 分 区 ,通常 需要 修改 为 nonstrict 模 
式 , 表 示人 允许 所 有 的 分 区 字段 都 可 以 使 用 动态 分 区 。 

(5) 设置 完 动态 分 区 参数 后 ,就 可 以 向 ods_weblog_detail 表 中 加 载 数 据 了 ,命令 如 下 
所 示 。 


hive > insert overwrite table ods weblog detail partition (datestr) 
select distinct otd.valid, otd.remote addr,otd.remote user, 
otd.time local,otd.daystr, otd.tmstr, otd.month, otd.day, otd.bour, 
otr.reqest, otr.status,otr.body bytes sent, 
otr.http referer, otr.host,otr.path, 
otr.qpery, otr.query id,otr.http user agent,otd.daystr 
frmt ods tmp detail as otd,t ods tmp referurl as otr 
Where otd.remte addr= otr.remte adir 
and otd.time local= ctr.time local 
and otd.body bytes sent=otr.body bytes sent 
and otd.request= otr.request; 
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上 述 命令 语法 简单 ,将 两 张 临时 表 的 相关 字段 数据 查询 并 保存 到 明细 表 中 ,插入 成 功 
后 ,打开 HDFS 的 Web UI 查看 ods_weblog_detail 文件 夹 ,如 图 11-7 所 示 。 


| 昌 me x 
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图 11-7 明细 表 文 件 目录 


从 图 11-7 可 以 看 出 ,明细 表 数 据 按照 “daystr" 字 段 进 行 了 分 区 ,方便 后 期 缩小 范围 查询 
数据 ,有 效 提高 数据 的 检索 速度 以 及 对 数据 的 可 管理 性 。 


11.5 模块 开发 一 一 数据 分 析 


数据 仓库 建设 好 以 后 ,用 户 就 可 以 编写 Hive SQL 语句 进行 数据 分 析 。 在 实际 开发 中 ， 
需要 哪些 统计 指标 通常 是 由 产品 经 理 提出 ,而 且 会 不 断 有 新 的 统计 需求 产生 。 下 面 介绍 数 
据 分 析 时 常见 的 指标 。 


11.5.1 流量 分 析 


PV(PageView) 指 页 面 点 击 量 , 是 衡量 网 站 质量 的 主要 指标 ,PV 值 是 指 所 有 访问 者 在 
指定 时 间 内 浏览 网 页 的 次 数 ,在 日 志 记 录 中 ,一 条 数据 就 代表 了 一 次 点 击 量 。 统 计 每 一 天 的 
PV 量 是 较为 常见 的 需求 ,下 面 演示 实现 方式 。 

首先 创建 表 结 构 ,命令 如 下 所 示 。 


hive > create table dy pvs_ everyday (pvs bigint,month string, day string) 


要 计算 每 一 天 PV 量 , 就 需要 查询 明细 表 , 因 为 在 明细 表 中 ,已 经 把 "day” 字 段 提 取出 来 
了 ,命令 如 下 所 示 。 


hive > insert into table dw pvs everyday 
Select count(# ) as Pvs,cwdmonth as month,owd.day as day 
fram ods weblog detail od 
gpoup by od month, ood.day; 
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执行 成 功 后 ,查询 表 数 据 , 返 回 结果 如 图 11-8 所 示 。 


@ hadoop01-192.168.121.134 区 下 如 192.168.121.134 (1) | Y hadoop02-192.168.121135 x | 各 hadoop03-192.168.121.136 
0 Jdbc hi Ver:77]hadoopor:10000> seTect “Trom dpvs-everydayy 
pe 


$rows selected C0.079 Seconds) 
0: jdbc:hive2://hadoop01:10000> 


ssh2: AES-256-CTR 14, 33 15 Rows, 112 Cols VT100 CAP NUM 


图 11-8 dw_pvs_everyday 表 数 据 


从 图 11-8 可 以 看 出 ,9 月 18 日 的 PV 值 较 大 ,通过 数据 报表 ,相关 工作 人 员 可 以 分 析出 
造成 这 种 问题 的 原因 。 


11.5.2 ”人均 浏 览 量 分 析 


人 均 浏 览 量 通常 被 称 为 人 均 浏 览 页 面 数 ,该 指标 具体 反映 了 网 站 对 用 户 的 黏 性 程度 , 简 
单 地 说 是 用 户 对 该 网 站 的 兴趣 程度 ,页 面 信息 越 吸引 用 户 ,那么 用 户 就 会 跳 转 更 多 的 页 面 。 
计算 人 均 浏 览 量 是 通过 总 页 面 请 求 数量 除 以 去 重 人 数 得 出 。 

在 数据 中 remote_addr( 访 客 来 源 IP) 可 以 用 来 表示 不 同 的 用 户 , 因 此 可 以 先 统计 出 当 
天 所 有 的 PV 值 作为 总 页 面 请 求 数 ,再 将 remote_addr 重复 的 数据 去 除 作为 去 重 总 人 数 。 
实现 人 均 浏览 量 功能 模块 步骤 如 下 。 

(1) 首先 ,根据 上 面 的 需求 分 析 , 创 建 维度 表 dw_avgpv_user_everyday, 命令 如 下 
所 示 。 


hive > create table dw avgpv user everyday( 
cay string, 
avgPV string); 


(2) 接着 ,通过 数据 明细 宽 表 ods_weblog_detail 获取 相关 数据 并 插入 到 维度 表 dw_ 
avgpv_user_everyday 中 ,具体 指令 如 下 所 示 。 


hive > insert into table dy avgpv user everyday 
Select '2013- 09- 18', sm(o.EWs) /count p.remcte _actir) from 
(select remcte adir, oount (1) as Es fram ods weblog detail where 
datestr= '2013- 09- 18' group by rampte adtir) b; 


上 述 命 令 可 以 得 出 9 月 18 日 用 户 平均 浏览 页 面 数 量 , 计 算 7 日 值 只 需要 将 命令 中 的 日 
期 修改 即 可 。7 日 数据 插入 完毕 后 ,执行 查询 命令 ,返回 结果 如 图 11-9 所 示 。 

从 图 11-9 可 以 看 出 ,dw_avgpv_user_everyday 表 展 示 了 每 日 用 户 平均 浏览 页 面 数 量 ， 
从 数据 可 以 推测 ,在 9 月 18 号 至 9 月 20 号 ,每 个 用 户 平均 访问 了 12 个 页 面 ,9 月 21 号 上 升 
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图 hadoop02-192.168.121135 - SecureCRT El 
Ee Edit View Options Iransfer EE Mndow Help 
加 8 A) Enter host <Alt+R> EF FE YY. S| 
4 
[二 
| 2013-09-18 1 12.010404624277456 ’ 
| 2013-09-19 | 12.997457627118644 1 
2013-09-20 12. 274418604651164 | 
2013-09-21 14. $68234604803123 
2013-09-2 | 7.798122065; 1 
3-09-2: 545454 | 1 
! 2013-09-24 | 12.137457044673539 1 
md eth 生生 和 和 -二 
rows Selected Co.073 | 
0: jdbc:hive2://hadoopo1:1 
国 
Ready ssh2: AES-256-CTR 14, 33 20 Rows, 112 Cols VT100 CAP NUM 


图 11-9 dw_avgpv_user_everyday 表 数 据 


为 14 个 页 面 ,说 明 网 站 当日 信息 内 容 质 量 优 秀 ,更 加 吸引 用 户 ,9 月 22 日 骤 降 ,可 能 造成 的 
原因 是 由 于 昨天 访问 量 过 大 ,造成 服务 器 崩溃 ,随后 恢复 了 正常 运行 水 平 。 数 据 分 析 的 目的 
就 是 将 数据 量化 , 供 决策 运营 人 员 通 过 数据 解决 实际 问题 。 


11.6 模块 开发 一 一 数据 导出 


使 用 Hive 完成 数据 分 析 过 程 后 ,就 要 运用 Sqoop 将 Hive 中 的 表 数 据 导 出 到 关系 数据 
库 中 ,方便 后 续 进行 数据 可 视 化 处 理 。 数 据 导出 步骤 如 下 。 

(1) 首先 通过 SQLyog 工具 (图 形 化 管理 MySQL 数据 库 的 工具 ) 远 程 连接 hadoop01 
服务 器 下 的 MySQL 服务 ,读者 可 自行 下 载 安装 该 工具 使 用 ,如 图 11-10 所 示 。 


ET 
保存 的 连接 MVM] 。 [hadoop0l | 
MysaL [HITSSH [SSL | 高 级 

My5QL 主机 地 址 M) 192 168.121.134 

用 户 名 山 Toot 

E21 eosss 团 保 让 宪 吗 Ww) 
端 D 吕 ] 3306 

数据 库 @] 

本 。 | 

如 的 1 和 HR 保持 数据 库 一 栏 空白 则 

回 使 用 压缩 协议 E) 

会 话 空间 超时 

@MWAD Ol2m 


图 11-10 远程 连接 MySQL 服务 


(2) 连接 成 功 后 , 即 可 创建 sqoopdb 数据 库 ,在 sqoopdb 数据 库 下 创建 需要 展示 的 七 日 
人 均 浏 览 量 表 t_avgpv_num, 命 令 如 下 所 示 。 
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mysql > create table 七 avgpy nm ( 
“catestr varchar (255) IEERDUT NULL, 
"augPvNum decimal (6,2) TEFEADIT NOLL 
) ENGINE= MyTISAM TEFAILT CHARSET= Utf8; 


(3) 创建 完毕 后 ,在 安装 Sqoop 工具 的 节点 (这 里 操作 hadoop01) 上 执行 Sqoop 导出 数 
据 命 令 。 


$ bin/sspop esport \ 

一 Comect jdbcmysql://hadbop01:3306/sgpopdb \ 

一 Usemame roct \ 

—— Password 123456 \ 

— table t_avgpvy nm \ 

一 colummns "datestr,avgpyNum" \ 

—— fields- teminated- by '\001' \ 

—— export— dir /user/hive/warehouse/weblog.db/dw avapv user everyday 


上 述 命令 指定 了 MySQL 表 名 、 对 应 字段 .分 隔 符 方式 以 及 Hive 数据 表 , 执 行 完成 后 ， 
查看 对 应 MySQL 数据 库 表 t_avgpv_num 数据 ,如 图 11-11 所 示 。 


名 1 信息 | 加 2 去 数据 |43 3 资料 | 加 4 历史 
硒 民 喝 民 | 昌 民 国生 局 曲 所 有 行 @@ 行 的 范围 首 行 0 maio 行 


: 


2013-09-18 
2013-09-19 | 
Ro13-09-20 | 
2013-09-21 14.37 
2013-09-22 | 7.80| 
2013-09-23 | 8.05| 
2013-09-24 | 12.14| 
[wa | co 


Database: sqoopdb Table: t_avgpv_num 


图 11-11 t_avgpvy_num 表 数 据 


从 图 11-11 可 以 看 出 ,数据 导出 成 功 。 


11.7 模块 开发 一 一 日 志 分 析 系 统 报表 展示 


随 着 数据 分 析 流 程 的 结束 , 接 下 来 就 是 将 关系 数据 库 中 的 数据 展示 在 Web 系统 中 ,将 
抽象 的 数据 图 形 化 ,便于 非 技 术 人 员 的 决策 与 分 析 ,本 系统 采用 ECharts 来 辅助 实现 。 

ECharts 是 一 款 商业 级 数据 图 表 , 基 于 JavaScript 的 数据 可 视 化 图 表 库 , 且 兼 容 大 部 分 
浏览 器 ,底层 是 基于 Zrender( 轻 量 级 Canvas 类 库 ), 它 包含 了 许多 组 件 , 如 坐标 系 、 图 例 和 工 
有 具 箱 等 ,并 在 此 基础 上 构建 出 折线 图 、 柱 状 图 、 散 点 图 、 饼 图 和 地 图 等 ,同时 支持 任意 维度 的 
堆积 和 多 图 表 混 合 展现 ,展示 效果 功能 强大 , 想 要 充分 学 习 ECharts 的 读者 可 以 浏览 官方 网 
站 http://echarts. baidu. com/ ,使 用 Echarts 也 非常 简单 ,只 需 在 官网 下 载 相应 版 本 的 
JavaScript 源 代 码 ,并 通过 所 选 实 例 的 教程 编写 接口 参数 即 可 。 
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下 面 讲解 利用 Java EE 开发 日 志 分 析 系 统 。 


11.7.1 搭建 日 志 分 析 系 统 


日 志 分 析 系 统 报表 展示 是 一 个 纯粹 的 Java EE 项 目 ,本 节 将 采用 SSM 框架 搭建 ,详细 
搭建 步骤 如 下 。 


1. 创建 项 目 , 添 加 依赖 


打开 Eclipse, 创 建 名 为 "Weblog” 的 Maven 工程 ,并 选择 war 的 打包 方式 ,创建 成 功 后 ， 
会 提示 “web. xml is missing and 一 failOnMissingWebXml> is set to true” 的 错误 ,这 是 由 
于 缺少 Web 工程 的 web. xml 文件 所 导致 ,只 需要 在 工程 的 src/main/webapp/ WEB-INF 
文件 夹 下 创建 web. xml 文件 即 可 ,读者 也 可 以 通过 右 击 项 目 ,选择 Java EE Tools 选项 , 单 
击 Generate Deployment Descriptor Stub 选项 可 以 快速 创建 web. xml 文件 。 

下 面 编写 Pom 文件 添加 SSM 框架 所 需 的 依赖 ,如 文件 11-5 所 示 。 

文件 11-5 pom. xml 
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上 述 依赖 的 作用 主要 是 构建 以 SSM 框架 为 基础 的 Java Web 工程 所 需 的 相关 jar 包 ， 
项 目 源 代码 将 会 提供 给 读者 使 用 ,因此 这 里 不 再 过 多 陈述 ,下 面 针 对 重要 的 功能 模块 讲解 
时 ,只 会 展示 关键 性 的 代码 。 

在 正式 讲解 项 目的 编写 之 前 , 先 了 解 一 下 项 目 中 所 涉及 的 包 文件 .配置 文件 以 及 页 面 文 
件 等 在 项 目 中 的 组 织 结构 ,如 图 11-12 所 示 。 


4 邮 Weblog 
4 @ src/main/java “Bsrc 
b> 厅 cnitcast.controller Controller 层 4 全 main 
b 旭 cnitcastmapper DAO 层 接口 及 MyBatis 员 里 文 件 
b 亏 cnitcastpojo 实体 关 
朵 cnjitcastservice Service 层 接口 


4 BE mybatis 

国 SqIMapConfigxml Mybatis 配 置 文件 
4 & properties 

罩 db.properties 数据 库 常 显 配置 文件 


图 11-12 工程 资源 结构 


2. 编写 配置 文件 


(1) 在 项 目 src 文件 夹 下 创建 SSM 框架 所 需 的 mybatis、properties 以 及 spring 文件 
夹 ,编写 spring 配置 文件 ,如 文件 11-6 所 示 。 
文件 11-6 _ applicationContext. xml 


BRBESeawwau 


RBBBBSE 


吕 加 


SB 


语 汶 窑 襄 上 户 当 叫 员 名 吕 信 信人 彤 诊 


网 站 流量 日 志 数据 分 析 系 统 


小 
本 
地 
站 


综合 项 目 


mns:aop=http://www.springframework.org/schema/acp 
xmlns: be= "http://www.springframework.org/schena/tx" 
xmlns:xsi= "http://Www.w3.0rg/2001/xMLSchema— instance" 
x5i:schemalocation= "http://www.springframework.org/schema/beans 
http://www.springframework.org/schema/beans/spring- beans- 4.2.xsd 
http://www-.springframework.org/schema/context 
http://www.sbringframework.org/schemay/context/spring- context- 4.2.xsd 
httbp:/www.springframework.org/schemayacp 
http://ww. springframework.org/schema/aop/spring- aopr- 4.2.x5d 
http://www.springframework.org/schema/tx 
http://www. springframework.org/schena/tx/spring- tx 4.2.x5d 
http://www.springframework.org/schema/util 
http://www.springframework.org/schema/util/spring- util- 4.2.x5d"> 
< ! 一 加 载 数据 库 参 数 配 置 文件 一 > 
< context:property- Placeholder 
locaticone "classpath:properties/db.properties" /> 
<!- 数 据 库 连 接 池 一 > 
< bean jdF "datasource" class= "om.alibaba.druid.pool.Druidpatasouroe" 
destroy- method= "close> 
<property name= "url" value="$ {jdbc.url}" /> 
<property name= "usemame" value="$ {jdbc.usemane}" /> 
<property name= "password" value= "$ {jdbc.password}" /> 
<property name= "driverclassName" value= "$ {jdbc.driver}" /> 
< property name= "maxActive" value= "10" /> 
< property name= "minIdle" value= "5" /> 
< /bean> 
< 上 -创建 sglSessionFactoryBean 生成 sqlsessicnFactory 一 > 
<bean id- "sqlSessianFactory" 
class= "orgmbatis.spring.SqlSessionFactoryBean"> 
< ! 一 数据 库 连 接地 --> 
< property name= "dataSouroe" ref= "dataSouroe" /> 
< ! 一 加 载 mbatis 的 全 局 配置 文件 一 > 
<Property name= "configrocaticn” 
Value= "classpath"mybatis/sfiMponfig.xml" /> 
< /bean> 
< 上 -使 用 扫描 包 的 形式 来 创建 mapper 代 理 对 象 --> 
<bean class= "orgmibatis.spring mepper.Mapperscannerconfigurer"> 
<Praperty name= "basePackage" value= "cn.itcastmapper" /> 


< /bean> 
<!-- 事 务 管理 器 一 > 
<bean id- "transactiorManager" 
Class= 
"org.springframework.jdbc.datasouroe.DatasouroeTransacticrManager"> 
< 上 -数据 源 一 > 
<Praperty name= "dataSouroe" ref= "datasource" /> 
< /bean> 
< 上 -通知 一 > 


< tx:advioe id "advicen transaction manager= "transactiorManager> 
<tx:attributes> 
< :一 传播 行为 一 > 


281 


荆 828 Hadoop 大 数据 技术 原理 与 应 用 


上 述 代 码 是 SSM 框架 整合 配置 文件 ,指定 Spring 所 需 的 配置 参数 ,主要 由 DAO 层 的 
数据 库 连 接 池 以 及 Service 层 的 包 扫描 器 组 成 ,还 额外 添加 了 事物 的 传播 行为 以 及 切面 的 
配置 。 

(2) 编写 数据 库 配置 参数 文件 ,便于 项 目的 解 耦 ,如 文件 11-7 所 示 。 

文件 11-7 db. properties 


上 述 代码 是 数据 库 连接 参数 ,需要 注意 的 是 jdbc. url 参数 ,连接 的 数据 库 是 虚拟 机 中 节 
点 名 称 为 hadoop01 的 MySQL 数据 库 , 这 里 需要 根据 读者 具体 配置 情况 填写 。 

(3) 编写 SpringMVC 的 配置 文件 ,如 文件 11-8 所 示 。 

文件 11-8 springmvc. xml 
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上 述 代码 配置 了 Controller 层 的 包 扫描 注解 驱动 .视图 解析 器 以 及 资源 映射 。 

(4) 编写 web. xml 文件 ,配置 Spring 监听 器 ,编码 过 滤器 和 SpringMVC 的 前 端 控制 器 
等 信息 ,如 文件 11-9 所 示 。 

文件 11-9 web. xml 
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(5) 编写 SqlMapConfig. xml 文件 ,由 于 在 applicationContext. xml 中 配置 使 用 扫描 包 
形式 创建 Mapper 代理 对 象 ,那么 在 SqlMapConfig. xml 文件 中 就 不 需要 再 配置 mapper 的 
路 径 了 ,因此 SqlMapConfig. xml 如 文件 11-10 所 示 。 

文件 11-10 SqlMapConfig. xml 
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(6) 将 项 目 运 行 所 需要 的 CSS 文件 .assets 文件 .图 片 文件 ,JS 文件 以 及 JSP 页 面 按照 
图 11-12 中 的 工程 资源 结构 引入 到 项 目 中 。 
至 此 ,开发 系统 前 的 环境 准备 工作 就 已 经 完成 。 


11.7.2 实现 报表 展示 功能 
本 节 主 要 讲解 编写 前 后 端 代码 ,实现 报表 展示 功能 ,具体 步骤 如 下 。 
1. 创建 持久 化 类 


前 端 与 后 端 数 据 大 多 是 通过 Json 数据 进行 交互 ,本 项 目 同样 是 通过 后 端 查询 MySQL 
数据 进行 封装 ,返回 与 前 端 接口 一 致 的 数据 格式 。 

(1) 创建 一 个 cn. itcast. pojo 包 , 在 包 中 创建 TavgpvNum 实体 类 对 象 ,并 在 该 类 中 定 
义 属性 的 get/set 方 法 ,如 文件 11-11 所 示 。 

文件 11-11 TavgpvNum. java 


从 文件 11-11 可 以 看 出 ,实体 类 对 象 的 属性 值 与 t_avgpv_num 表 中 字段 保持 一 致 。 

(2) 在 pojo 包 下 创建 AvgToPageBean. java 文件 ,将 后 端 查询 的 数据 封装 此 对 象 中 , 便 
于 与 前 端 页 面 交互 ,代码 如 文件 11-12 所 示 。 

文件 11-12 AvgToPageBean. java 
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2. 实现 DAO 层 


(1) 创建 cn. itcast. mapper 包 , 随 后 在 mapper 包 下 创建 DAO 层 接 口 ,并 在 接口 中 编写 
通过 日 期 查询 数据 的 方法 ,如 文件 11-13 所 示 。 
文件 11-13 TAvgpvNumMapper. java 


(2) 然后 在 mapper 包 下 创建 MyBatis 映射 文件 TAvgpvNumMapper. xml, 并 在 映射 
文件 中 编写 查询 语句 ,如 文件 11-14 所 示 。 
文件 11-14 TAvgpvNumMapper. xml 


上 述 代码 根据 需求 ,只 编写 了 一 条 SQL 语句 ,用 来 查询 指定 日 期 区 间 的 平均 PV 量 ,并 
按照 日 期 dateStr 升序 排序 。 


3. 实现 Service 层 


(1) 创建 cn. itcast. service 包 , 并 在 该 包 下 创建 Service 层 接口 ,在 接口 中 编写 一 个 根据 
日 期 查询 数据 的 方法 ,如 文件 11-15 所 示 。 
文件 11-15 AvgPvService. java 
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上 述 代码 定义 了 一 个 通过 起 始 时 间 和 结束 时 间 查 询 数据 的 方法 。 

(2) 下 面 创建 Service 层 接口 的 实现 类 ,创建 cn. itcast. service. impl 包 , 并 在 包 中 创建 
Service 层 接口 的 实现 类 ,在 该 类 中 实现 接口 中 的 方法 ,如 文件 11-16 所 示 。 

文件 11-16 AvgPvServiceImpl. java 


不 88 Hadoop 大 数据 技术 原理 与 应 用 


上 述 代码 中 ,将 查询 的 数据 封装 在 AvgToPageBean 对 象 中 ,这 样 就 可 以 利用 Jackson 
工具 类 将 对 象 转换 成 Json 格式 的 数据 发 送 给 前 端 。 


4. 实现 Controller 层 


创建 cn. itcast. controller 包 ,在 controller 包 下 创建 IndexController. java 文件 ,代码 如 
文件 11-17 所 示 。 
文件 11-17 IndexController. java 


从 文件 11-17 看 出 ,pvService 对 象 调用 getAvgPvNumByDates() 方 法 时 传 入 日 期 参 
数 ,读者 可 以 通过 以 前 端 用 户 选 择 的 日 期 作为 参数 传递 的 方式 与 后 端 数据 库 进 行 交互 。 


5. 实现 页 面 功 能 


最 终 在 index. jsp 页 面 编写 JS 代码 .利用 Echarts 工具 ,生成 Echarts 图 例 ,接收 后 端 发 
送 的 Json 数据 ,Echarts 使 用 非常 简单 .读者 可 以 参照 此 案例 作为 模板 ,完成 index. jsp 页 面 
的 其 他 图 例 , 核 心 代 码 片 段 如 下 所 示 。 
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从 上 述 代码 片段 可 以 看 出 ,首先 编写 了 一 个 div 标签 ,id 二 "main1", 然 后 使 用 JQuery 
事件 创建 Echarts 图 例 , 在 setOption 方法 中 的 参数 是 固定 模板 ,只 需要 添加 所 需 的 说 明文 
字 即 可 ,Echarts 是 通过 Ajax 异步 加 载 数据 来 实现 动态 填充 zx 轴 与 y 轴 坐 标 系数 据 , 那 么 
可 以 利用 Controller 层 返 回 的 数据 data 来 实现 。 
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11.7.3 系统 功能 模块 展示 


至 此 编写 代码 完毕 ,下 面 右 击 项 目 ,选择 “Run As”>“Maven build”, 在 Goals 文本 框 输 
入 “tomcat7: run” 启 动 Tomcat 服务 ,在 浏览 器 输入 http://localhost:8080/index. html 网 
站 , 即 可 打开 网 站 流量 日 志 分 析 系 统 的 主 界面 ,功能 模块 效果 如 图 11-13 所 示 。 
最 近 7 天 日 平均 PV 量 日 平均 PV 晤 


动态 数据 
15 


oy 
公 


11-13 七 日 人 均 浏 览 量 


11.8 本 章 小 结 


本 章 通 过 开发 网 站 流量 日 志 分 析 系 统 ,讲解 利用 Hadoop 生态 体系 的 技术 解决 实际 问 
题 。 首 先 介绍 系统 的 框架 流程 ,然后 逐个 讲解 各 个 模块 之 间 的 实现 方式 ,从 数据 采集 .数据 
预 处 理 .数据 仓库 的 设计 ,数据 分 析 数据 导出 以 及 最 后 可 视 化 处 理 , 详 细 讲解 了 系统 的 环境 
搭建 工作 ,最 终 实现 了 人 均 浏览 量 的 功能 模块 ,并 且 进 行 效 果 展 示 。 读 者 需要 熟练 掌握 系统 
架构 以 及 业务 流程 ,熟练 使 用 Hadoop 生态 体系 相关 技术 ,完善 本 项 目 其 他 功能 模块 ,这 样 
才能 将 本 书 Hadoop 知识 体系 融会 贯 j 


